不要6000张GPU!不要2000张TPU! 只要480,万亿参数大模型“抱回家”! 还没完,更惊艳的在后边。 同为万亿“体量”,能耗降低超八成,效率还能提升11倍。 当真有这好事? 没错,这就是阿里巴巴刚刚发布的万亿巨模型M6。 用绿油油的“低碳版”来形容很是恰当了。 今年3月,M6作为中国首个千亿多模态大模型发布时,前OpenAI政策主管Jack Clark曾发文点赞道:
这次,万亿M6的问世又顺利拿下了个中国第一——国内首个实现商业化落地的多模态大模型。 而且是离你很近的那种哦~ 不仅是画画、写作,你的支付宝、淘宝就在用!自从大模型变得流行起来之后,它所具备的创意能力,一直是被世人所津津乐道。 例如OpenAI的DALL·E,给自家设计出来的公司门面,是这样的: 风格多变、设计多样倒是没错了。 甚至被网友们一度称赞为“甲方克星、乙方福音”。 但讲真,要是拿到现实来商用,真的能hold得住吗? 不见得。 单是从效果图来看,字体扭曲便是一个大问题。 而要商用,图片还需要一个非常硬性的要求——得够清晰啊! 但DALL·E生成图片的分辨率,却仅为256x256。 那到了万亿参数规模,情况是否有所好转? 直接来看下M6设计的作品效果: 不难看出,万亿参数大模型所生成的图,在清晰度上有了较大的提升,分辨率直接翻倍,达到了1024x1024,放大后还能看清衣物纹理。 或许你会说,除了M6之外,目前国内外已经诞生了几个万亿“体量”的大模型。 那阿里此次提出的大模型,又有什么独到的特点? 一大特点是,M6不仅公开了实现的详尽细节、模型的收敛情况(详见文末论文链接),而且还是国内首个实现商业落地的万亿参数多模态大模型。 还是以生成图片为例,阿里已经初步将成果投入到了生产场景当中——阿里新制造平台犀牛智造。 目前,M6主要参与一些基础款的设计。但可预期的是,随着实践经验的丰富,M6的水平将不断进化。 据了解,M6计划在一年内生成上万款高清服装设计图。 什么概念? 这个数量就相当于一些快时尚品牌数百人设计团队的年出款量。 再具体一些,结合大数据预测的潮流趋势,M6可以实现快速设计和上身模拟,再经人类设计师进行筛选。 这么一套流程下来,原本以月计的新款服饰开发周期,被压缩到了以周来计算。 或许你会觉得这样的商业落地,离自己太远了。 不不不,M6还可能会出现在你经常用到的App哦——支付宝、淘宝。 懂“搜索”的人都知道,传统的搜索过程就是,查询语句与商品title的一个语义匹配过程。 但现在的年轻人搜索商品可不按照套路出牌。 举个例子,他们会搜“凹凸的咖啡杯”。 其实他们想搜索的就是一种日式风格的咖啡杯,但商家可不会把这些细节写进商品title中。 这时候,大模型就开始发挥它的看家本领了。 M6会根据商家提供的图片,以及用户的查询,做一个跨模态的搜索。 即使商家没有在title中描述关键词,M6可以根据图片中的信息,然后推荐出你想要的产品。 这时候你又会说了,其它万亿参数大模型说不定也能做到! 或许可以。 但如果说,M6只烧了480张GPU就做到了呢? 而且能耗比之前已有万亿参数模型低了8成,效率还提升了11倍! 不仅如此,达到这种惊人效果,从千亿到万亿参数规模,阿里只花了3个月时间。 3个月打造万亿参数模型,怎么做到的?首先要了解的一点是,3个月时间的工作,并非是一蹴而就。 早在今年1月份,阿里便推出了百亿参数模型,而当时谷歌就已经提出来了1.6万亿参数的Switch Transformer。 谷歌能够达到这个量级,所借助的就是一个叫做MoE (Mixture of Experts)的架构。 于是,阿里从百亿开始的“规模升级”过程中,便借鉴了这个架构,仅耗时2个月,便发布千亿参数大模型,而且只用了32个 V100 GPU。 不得不说,MoE这个架构确实好用。 它能够做到的在扩展模型容量并提升模型效果的基础上,不显著增加运算FLOPs,这样就可以实现高效训练大规模模型的目的。 但阿里在却在研究过程中发现了一个问题:
简单来说,原理是这样的。 大模型常用到的Transformer分布式训练中,通常是各个GPU同一FFN层中,使用同一份参数。 而MoE就不同了,上述的这部分参数会在GPU之间共享,一份FFN参数被称为1个“专家”(expert),每个GPU上将存放若干份参数不同的“专家”。 (如下图中标红框部分所示) 但阿里却发现,在原来MoE的训练过程中,非常容易只选择top的几位“专家”,这就使得头部效应非常严重。 于是乎,阿里便对MoE的这个问题进行了改良。 研究人员对“专家”做了一个分组工作,即expert prototyping。 具体而言,先是把“专家”分成k个组,在每组中再进行top-k的操作(通常采用top-1,便于理解)。然后再将k组的结果进行组合,也称之为k top-1。 这种方式实现上更直接简便,并且允许组和组之间并行做top-k操作,更加高效。 例如在百亿模型下游image captioning任务上,甚至能观察到优于top-k的表现: 而且在阿里与谷歌交流过程中,谷歌的研究人员也认可了这种改良思路,他们认为非常精巧。 除此之外,算子精度也是阿里此次改良的工作之一。 谷歌在做Switch Transformer时,为了将模型体积压下来,选择了BF16。 但精度的降低会带来非常大的技术挑战,就是如何保证模型收敛的问题。 而且阿里还要做到“低碳版”,不能烧太多的GPU,因此相比谷歌在算子精度方面的工作,阿里可谓走了一条更加“极端”的路线。 具体而言,XLA优化、混合精度训练、半精度通信等训练效率优化技术,并采用了Adafactor优化器,成功在480张NVIDIA V100-32GB上完成万亿模型的训练。 并且在训练中,他们采用绝对值更小的初始化,适当减小学习率,保证了训练的稳定性,实现正常的模型收敛,而训练速度也达到了约480samples/s。 以上便是阿里“低碳版”万亿参数大模型的核心奥秘了。 而抛开技术本身,细品阿里在大模型的规划路线,不免让人产生另一个问题: 阿里为什么这么“急”?
而且不同于其它大模型堆TPU、GPU,阿里选择的还是一条极端的“低碳”路线:
“急”,确实有点“急”。 但纵观全球大模型的发展,阿里的这种“急”也就不难理解了。
除了万亿规模,这期间还穿插着像阿里、华为等大厂发布的百亿、千亿参数大模型。 而更早的,谷歌的BERT、OpenAI的GPT-3等,可以说是开启了大模型了一股热潮。 好一副“百家争鸣”之势。 为什么会这样? 因为这是必然,是大势所趋。 就好比十几年前深度学习的崛起一样,国内外各大厂商看到了这个技术的正确性。 于是纷纷前赴后继地入局于此,各式各样的深度学习模型不断涌现。 现如今大模型的这种盛世,就与深度学习时代极其相似。 而且比起深度学习,大模型的迭代速度只会更快。 因为深度学习时代之下,并没有出现很多应用场景。 但现如今,单是面向C端用户群里的大流量场景便应接不暇,搜索、推荐、广告等等。 因此,在大模型的研发上,不仅仅是阿里“急”,可以说全球各大厂商和研究机构,都很“急”。 而从技术本身来看,大模型还逐渐浮现出了无限的创造价值。 简而言之,就是在模型参数越发巨量的趋势之下,模型可能会做到更多“意想不到”的事情。 还是以M6生成图片为例,很多人会有一个质疑:
据阿里内部人士透露,还真不是这样:
最简单的验证方式,就是拿这些图片去各种搜索引擎搜一下,结果定然是完全找不到。 除此之外,技术应当有益于人类的发展。 在这一点上,M6大模型还有计划“上岗”助农扶贫的工作了。 具体而言,它将参与到帮助农民卖货的一个环节,可以帮助他们快速设计包装的logo以及各种IP衍生品。 而在此之前,这些环节的人力成本相对来说还是较高的。 综上来看,大模型的发展迭代、落地,确实是一个很“急”,但又正确的大趋势了。 …… 最后一个问题,既然万亿规模参数已来,按照如此迭代速度,更大量级的大模型,还会远吗? 按现在的趋势,答案是肯定的,只是时间问题。 但据阿里的介绍,接下来在大模型的研究工作中,不仅是要追求参数规模的迭代,更要追求通用性和商业落地。 那么对于接下来的大模型,你期待了吗? |
|
来自: 漫步之心情 > 《D大数据HR★统计PPT》