分享

大模型时代的阿里云,将云计算进行到底

 天承办公室 2023-11-01 发布于北京
图片
阿里云传达出清晰的战略,最终落点在云。
图片
文|葛覃

大模型与云计算,正在成为新时代的淘金者和卖铲人。

自ChatGPT刷屏之后的数月时间,微软Azure与OpenAI的示范效应传导至全球,基本所有能做大模型的厂商都尝试“淘金”,其中,云厂商是一股重要力量,云计算天然适合大规模的AI任务,同时云厂商也有人才、资源等优势,匹配大模型这类技术密集型工作。

淘金热最开始的阶段总是最混乱,淘金者一窝蜂涌向理想之地,竞争很快变得激烈起来,成功的淘金者是少数,这和如今的大模型产业相似。而云厂商同时具备淘金者与卖铲人的两种身份,如何平衡两者的关系,考验着云厂商的战略意识。

2023年云栖大会上,阿里云CTO周靖人表示:“面向智能时代,阿里云将通过从底层算力到AI平台再到模型服务的全栈技术创新,升级云计算体系,打造一朵AI时代最开放的云。”

在现场,周靖人发布了千亿级参数的通义千问2.0,但更多的时间花在公布云计算基础能力的进展上:包括AI基础设施的全面升级、模型应用开发平台阿里云百炼以及更加自动化的云等,他宣布阿里云已初步建成AI时代全栈的云计算体系。

通义千问2.0正式发布

阿里云传达出清晰的战略,最终落点在云,而不是大模型,要做卖铲人,服务千万淘金者。
图片云优先,还是大模型优先

国外如AWS、微软Azure等,国内如阿里云、百度等,看起来似乎都没什么两样,从基础设施到大模型应用,云厂商能够包揽大模型链条上的大部分环节。实则不然,出发点不同,决定了云厂商不同的动作。

仔细观察国内外云厂商的布局就会发现,所有云厂商都面临云还是大模型的选择,国外头部云厂商更务实,以云为先,国内云厂商还在观望。

ChatGPT火爆之后,AWS的主打产品不是自研的大模型,而是Amazon Bedrock,Amazon Bedrock 是一项完全托管的服务,用户可调用亚马逊自己的基础模型Amazon Titan,也可以使用其他第三方基础模型,并且提供构建生成式人工智能应用程序所需的一系列工具链,强调隐私和安全。

如果说AWS的选择还可以理解为,错失大模型的先发机会不得不优先做云,那么,微软就更有代表性。

2020年,微软就发布了基于Transformer架构的语言生成模型Turing NLG,170亿参数是当时OpenAI的GPT-2的十倍。值得关注的是,当ChatGPT取得了现象级热度,微软并没有再着重强调自研大模型,而是选择了深度绑定的方式,直接基于GPT对外提供服务。

在最新一季财报中,微软收入同比增长了13%至565亿美元,净利润同比增长了27%,至222亿美元,微软表示,主要得益于对消费者和商业产品中大型AI模型的不断增长需求,推动了云消费的增加。

微软并不是放弃做大模型,微软Azure云是基础设施,Copilot作为AI 助手扩展到Windows、Office、Bing等软件,云-AI-软件的链条构成了商业闭环,微软要是再把持大模型,可能会得不偿失。

结合产业现实来看,站在云计算的出发点做大模型,有足以让人信服的理由。

大模型是技术驱动型创新,而非场景驱动型创新,这就意味着大模型没有现成的应用场景,说得好听点是无限可能,说得难听点是从零开始,毕竟ChatGPT很难复制,大模型还是需要找到客户为之买单的场景,尤其是B端有更高付费能力和意愿的客户。

拿着锤子找钉子,是大模型厂商当下的常态,而云计算是一条确定且广阔的赛道,商业模式清晰,赛道规模足够大,仅就算力资源来看,未来AI算力取代通用算力充满确定性,不止是目前的训练需求,未来推理需求将远超训练需求,以大模型算力为云的基本盘,是云厂商必须抓住的大生意。

除了算力之外,大模型能够提高云计算的附加值,直接提升毛利。IaaS是低毛利生意,但大模型的训练任务,是囊括了算力底座、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程,对性能、成本提出了严酷挑战,传统数据中心难堪重任。

经历了大规模任务考验的云平台,更适合承载大模型。周靖人表示,云计算是做大模型的最佳选择。更适合跑大模型的云,本质上就是更好的铲子,能够让大模型厂商挖掘到更高的价值,自然云厂商的价值也会水涨船高。

某种意义上,阿里云自己下场做大模型,更像是“打样”——自己把坑都蹚过了,知道该往哪里走,才能更好地说服客户上云来做大模型。

不过,从产业生态的角度考量,一家云厂商同时做大模型和云平台,容易被理解为和客户竞争。云厂商做大模型应该把握好度,既要锤炼出大模型厂商所需要的基础设施,又不至于与客户争利。

微软、英特尔都是靠链接上下游,形成平台化、规模化的生态,云计算是新时代的平台,向下整合硬件,向上对接大模型,云厂商应该做好云平台,构建云生态,更多地把大模型应用的空间让渡给行业。
图片阿里云在大模型时代的“三板斧”

相比于国外云厂商的坚定做云,国内云厂商还在摇摆之中,不过,作为中国最大的云计算厂商,阿里云的表态可能引起连锁反应。

本届云栖大会,阿里云发布了诸多产品和服务,除了国内千亿级参数通义千问2.0,还一次性放出了8个可以直接2C体验的行业大模型,还有玲琅满目的AI相关云产品全面升级。

图片

通义大模型家族

在令人眼花缭乱的发布背后,阿里云面向AI时代其实已经做出了坚定选择——做AI时代的基础设施、开源路线、开放平台。

首先是AI基础设施,大模型是AI基础设施呈现的结果,实际上,阿里云内部的迭代早已开始,每一次模型的发展都离不开云,表面上看是模型的发布,背后代表的是阿里云整个AI基础设施的升级,高带宽网络的连接,大规模资源的管理,高效弹性的多种算力,数以万计的服务器构成了开发者界面的一台计算机。

以阿里云本次云栖大会发布为例,全新升级的阿里云人工智能平台PAI,底层采用HPN7.0新一代AI集群网络架构,可高效协同调度各类芯片,支持高达10万卡量级的集群可扩展规模,让超大集群像一台计算机般高效运转。

阿里云PAI可支撑多个万亿参数大模型同时训练,超大规模分布式训练加速比高达96%,远超行业水平;在大模型训练任务中,更可节省超过50%算力资源,性能全球领先。

要知道,大模型训练大部分时间都在等待,一个错误可能导致有效训练时间少几天甚至几个礼拜,而且大模型规模越大、卡数越多,出故障的概率就越大,多数大模型的训练只使用数百张卡,加速比96%意味着算力可以实现接近线性的增长,而不是绝大多数时间都在空转浪费资源,背后阿里云平台做了复杂的系统优化。

做云, 并不代表阿里云不做大模型,阿里云做大模型是为了更好的做云,因此阿里云也将大模型逐步开源出来,并且走开放路线。

今年4月,阿里云推出自研大模型通义千问,并先后开源70亿及140亿参数规模的大模型版本,成为国内最早开源自研大模型的科技公司。在2023云栖大会现场,通义千问2.0正式亮相,基于更大的参数规模和更先进的对齐技术,通义千问2.0在复杂指令理解、文学创作能力、通用数学能力、知识记忆、幻觉抵御等能力维度上表现优异,在多个主流测评集上,超越GPT-3.5,获得接近GPT-4的得分。

阿里云还“打样”了8大垂直领域模型——通义听悟、通义晓蜜、通义智文、通义星尘、通义灵码、通义法睿、通义仁心、通义点金,让大模型在金融、医疗、法律、编程、个性化创作等行业和场景中更易被集成。

通义灵码等8大垂直领域模型,将通过网页嵌入、API与SDK调用等方式集成进各行各业,还将通过全新发布的一站式大模型应用开发平台——阿里云百炼,对外开放。这也是阿里云降低大模型门槛的一大举措。

图片

阿里云百炼接入主流三方大模型

周靖人介绍称,阿里云百炼集成了国内外主流优质大模型,包括阿里云自研大模型及Llama2、Baichuan等三方大模型。基于阿里云百炼,开发者可在5分钟内开发一款大模型应用,几小时“炼”出一个专属模型,大模型门槛大幅降低。

在2023云栖大会现场,周靖人透露,模型社区阿里云魔搭,已聚集2300多款AI模型,共吸引280万名AI开发者,魔搭社区上线仅一年,AI模型下载量就已突破1亿。

图片

魔搭社区模型下载量突破1亿

阿里云魔搭已成为国内规模最大、开发者最活跃的开放模型社区,其中,通义千问开源版本累计下载超百万次,百川智能、智谱AI、上海人工智能实验室、IDEA研究院等业界顶级玩家都已将其核心大模型在魔搭上首发,并开源Baichuan2系列模型、MathGLM系列模型、书生-浦语200B模型InternLM-20B、Ziya2-13B等系列模型。
图片做大模型时代的云生态

云栖大会上,阿里巴巴集团董事会主席蔡崇信致辞,他强调最多的词是“开放”。蔡崇信说:“我们坚信,不开放就没有生态,没有生态就没有未来。同时,我们要始终攀登技术高峰,只有站在更先进、更稳定的技术能力之上,才有更大的开放底气。”

图片

技术从来不是护城河,与其说阿里云在做AI时代的云,不如说阿里云在做大模型时代的云生态。2022年底,周靖人首次提出MaaS(Model as a Service,模型即服务)理念,阿里云已经设想好了未来的蓝图。

即阿里云通过提供工具与服务,降低使用门槛,为大模型创业公司提供全方位服务,越多元的模型、越繁荣的应用,中国大模型生态意义上就更繁荣,阿里云的机会也就越大。

如此梳理,便能将阿里云的动作串联起来,AI基础设施包括IaaS和PaaS一系列能力,朝着更适合跑大模型的方向演进,应用层面树立标杆先一步为客户趟路,开源、开放是为了让客户、开发者、创业公司、ISV等角色聚拢在一起,降低沟通成本,快速推出面向市场的创新。

以开源为例,国外厂商开源大模型不少,阿里巴巴是唯一一个开源大模型的国内头部云厂商,这是阿里云与其他厂商的根本区别,所以在云厂商纷纷喊着做大模型生态时,魔搭社区早已经种下了种子,并且逐渐生长为中国大模型生态的森林。

生态开放策略为阿里云直接赢得了客户信任,周靖人介绍,中国一半大模型公司跑在阿里云上,百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等大批头部企业及机构均在阿里云上训练大模型。

截至目前,中国众多头部主流大模型都已通过阿里云对外提供API服务,包括通义系列、Baichuan系列、智谱AIChatGLM系列、姜子牙通用大模型等,大模型厂商与阿里云一同面向客户。

百川智能是中国最头部大模型创业公司之一,曾创下平均28天迭代一版大模型的纪录。王小川介绍,百川大模型快速的快速迭代和部署离不开云计算的支撑,百川智能和阿里云作为紧密的合作伙伴进行了深入合作。在双方的共同努力下,百川很好地完成了千卡大模型训练任务。

大模型也在反哺阿里云,阿里云成为一朵走向“自动驾驶”的云。周靖人表示,“基于阿里云通义大模型,我们对云上产品也进行了AI化改造,超过30款云产品具备了大模型的能力,带来了开发效率的大幅提升。”

例如,阿里云大数据治理平台DataWorks新增了全新的交互形态——Copilot,用户只需用自然语言输入即可生成SQL,整体开发与分析可提效30%以上。阿里云容器、数据库等产品上也提供了类似的开发体验,未来这些能力还将集成到阿里云其他产品上。

阿里云用大模型驱动云计算进化,云平台加持大模型,并不依靠大模型本身赚钱,更重要的是找到自己的生态角色,开源开放的大模型与AI基础设施不断迭代,为其提供了循环往复的动力。

在全新的大模型时代,阿里云又踏上一个新的开始。

图片

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多