【原】OpenAI和谷歌，AI对线中的飞驰人生

脑极体 2024-02-23 发布于河南

展开全文

到底什么时候，才能有一家公司赶超OpenAI？这句问题，想必是过去一年多来，萦绕在不少读者心中的困惑。

如果全世界只有一家公司能赶超OpenAI，谷歌应该是最有希望的选手。

同为北美AI巨头的谷歌，与OpenAI有着相同的AGI目标、世界级的技术人才、全球资金资源，就连OpenAI大模型的核心Transformer架构，都是谷歌原创发明的。

然而2023年至今，AI领域风云迭起，OpenAI永远快谷歌一步。谷歌每次拿出一个“复仇大杀器”，想一雪前耻的时候，总会被OpenAI抢走风头。

比如最新推出的核弹级多模态大模型Gemini 1.5，只在科技话题榜上“炸裂”了几个小时，就因为紧随其后推出的Sora过于炸裂、更吸引眼球，而变得无人在意。

毫无疑问，AI领域正在进行着一场世界上最精彩的“速度与激情”，领先的OpenAI赢得漂亮，紧随其后的谷歌也输得体面。我发现它们的境遇，被龙年春节档的热门电影，给精准拿捏了。

如果说OpenAI是惊艳四座、激动人心的《热辣滚烫》，那谷歌就像是《飞驰人生2》中艰难追梦的中年赛车手，鼓起勇气全速前进，结果不是赢，而是来了个大翻车。

谁能摘下赛道终点AGI的圣杯，结果还未可知，这一年多来，仅仅是欣赏这一长程赛事的初始赛段，都已经令人极为振奋了。

谷歌与OpenAI的AI对线，可谓是屡战屡败、屡败屡战。我们就从这场精彩的“双雄竞速”，来整体看一看北美AI巨头的产业对垒形势。

谷歌三连败

北美AI巨头的激情对线

目前，在争夺AGI通用人工智能圣杯的赛场上，分别有三支北美AI巨头：OpenAI、谷歌、Meta。

其中，Meta走的是开源路线，其大模型系列LLaMA是目前全球最活跃的AI开源社区。而OpenAI和谷歌则在同一条赛道上，主要打造“闭源”大模型。

尽管OpenAI被嘲讽“不再Open”，谷歌工作人员也大胆谏言“我们和OpenAI都没有护城河”。但换个角度，闭源的业务策略要说服用户付费，必须提供高质量模型、具备难以替代的能力优势，这也会驱动模型厂商持续创新，保持竞争优势，是AI产业中一股不可缺少的商业力量。

所以，北美AI三巨头的对垒格局，就是Meta卷生态，OpenAI与谷歌卷模型。

那么，把目光聚焦到模型赛道上，比赛情况如何呢？

2023一整年，和OpenAI同一赛道的谷歌，深深品尝到了peer pressure同辈压力的滋味。

这场竞速，可以分为三个赛段：

Round1.ChatGPT VS Bard.

结果不用多说，这是一场谷歌被OpenAI“摘了桃子”而开启的竞赛，从此就只能一路跟在OpenAI的尾气后面。

2022年11月，OpenAI发布ChatGPT一鸣惊人，开启了全球大语言模型的热潮。

其中，ChatGPT的基础技术Transformer是谷歌推出的，大语言模型的涌现现象是谷歌研究员Jason Wei发现的（后来跳槽到了OpenAI）。用谷歌的技术，抢谷歌的人，冲击谷歌的AI领导地位，OpenAI可谓是一通“骑脸输出”。

谷歌的应对，是“一怒之下怒了一下”。

2023年3月，谷歌紧急发布了Bard。但这个模型本身的性能就比较弱，上线时功能有限，只支持英文，只针对少数用户，跟ChatGPT完全不能打。

Round2.GPT-4 VS PaLM2.

有人说，谷歌采用的是“田忌赛马”策略，第一局故意放出了比较弱的机器学习模型Bard。这话有一定道理，但架不住OpenAI的每匹马都是好马。

OpenAI很快推出了升级版的GPT-4，并开放了 GPT-4 的 API，把谷歌甩得更远了。

5月的谷歌I/O 2023大会，派出来对打GPT- 4的PaLM 2，也是一个“过渡产品”。谷歌研究副总裁Zoubin Ghahramani对外表示，PaLM 2是对早期模型的改进，仅仅缩小了谷歌与OpenAI在AI方面的差距，但并没有整体超越GPT-4。

这一轮，谷歌仍然落后。谷歌显然也清楚这一点，在这场大会上同时宣布，正在训练PaLM的继任者，名为Gemini，押注了上亿身家，准备在年底上演“王子复仇记”。

Round3.Gemini家族VS Sora+GPT-5。

2023年底的12月，谷歌Gemini“虽迟但到”，这个谷歌目前最强大、最通用的AI模型，被媒体称为“复仇杀器”。这期间，OpenAI上演了一出“甄嬛回宫”的宫斗大戏，没有特别炸裂的产品。这一次，谷歌能夺回属于自己的一切吗？

很遗憾，谷歌并没能上演AI领域的“龙王归来”。

三个尺寸的Gemini：Nano、Pro和Ultra，其中Gemini Pro在常识推理任务中落后于OpenAI的GPT模型，Gemini Ultra对于GPT-4仅有几个百分点的优势，而GPT-4是OpenAI一年前的产品。而且，Gemini还被爆出，宣称打败GPT-4的多模态视频，有后期制作和剪辑的成分，用中国模型产生的中文语料进行训练，自称是文心一言。

谷歌一鼓作气，一脚油门，Gemini Ultra发布还没几天，就推出了多模态大模型Gemini 1.5，能够稳定处理高达100万token，创下了最长上下文窗口的纪录。

这是一个激动人心的成果，如果没有Sora的话。

OpenAI几个小时之后，就推出了文字视频生成模型Sora，用前所未有的视频生成性能，以及世界模型的产品化，再一次惊艳了世人，抢走了本应属于Gemini 1.5的话题度，也强化了自己的AI领导地位。目前人们倾向于认为，OpenAI还是领先谷歌一筹。

此前大家都猜测是GPT-5已经训练得差不多了，面对谷歌目前最强的模型Gemini 1.5，已经有人隔空喊话奥特曼，问他还要把宝贝捂到什么时候，还不快点放出GPT-5。

至此，为期约一年的北美AI“田忌赛马”，以谷歌的三连败，暂时告一段落。

AGI的殊途

难以飞驰的谷歌

AGI是一场长长的赛事。拉长时间轴，谷歌与OpenAI的一年对垒与一时成败，或许未来看都不算什么。有资格走上顶级赛道，本身就是谷歌AI实力的一种证明。

比起输赢结果，更值得讨论的是，谷歌变成“卷王”卷了一整年，为什么会一直被OpenAI甩在身后，怎么折腾都跟不上？

田忌赛马，输一次是战术失误，次次都输，可能就能关注一下，是不是从马种、马圈、草料等源头，就已经存在问题了。

回到源头，谷歌和OpenAI可谓是同归、殊途。

同归，是双方都以实现通用人工智能，摘下AGI圣杯作为目标；

殊途，是双方选择的技术路线不同。OpenAI将更为通用的语言能力，作为实现AGI的基础，因此采用了对NLP领域至关重要的Transformer架构，打造了一系列GPT模型，才有了ChatGPT的惊艳亮相。

而谷歌则不然。多年来，谷歌的AI研发机构DeepMind，将强化学习、深度学习用于解决各种人工智能问题，技术积累非常广泛。比如石破天惊的AlphaGo、彻底改变生物学的AlphaFold，以及Transformer等NLP技术。

这就相当于，两个车手在为比赛准备赛车，OpenAI为AGI选了一个场地，比如“方程式赛车”，然后以语言为核心进行模型的开发制造，对赛车（模型）的结构、长宽、发动机、汽缸等进行优化改造（工程化）。而谷歌的DeepMind则不确定哪种车能终结AGI比赛，手里的技术工具又很多，于是方程式赛车、跑车、摩托车都造一下试试。

两种路线原本并没有什么优劣之分。但随着大语言模型的“智能涌现”，证明了OpenAI选择的技术路线更有希望实现AGI，谷歌DeepMind的技术路线就暴露出了明显的短板：

1.方向分散，成本高昂。在各个技术方向上投入的泛创新，消耗了大量资金，DeepMind与谷歌母公司AlphaBeta在商业化上的矛盾日趋加深。在OpenAI大幅融资加速的时候，谷歌为了加大对AI的投资，通过裁员来节省成本。

2.选型太多，难以聚焦。谷歌开创了许多技术，但每个技术的重视程度、持续深入强度也被分散了，四处打井不出水。最典型的就是Transformer架构，由谷歌发明，但被OpenAI发扬光大。ChatGPT的涌现现象，也是研究员在谷歌发现之后，但得不到重视，出走OpenAI后向前推进。

3.落地迟缓，成果太慢。谷歌内部对AI的保守也是出名的，导致其即使掌握了先进的技术，成果转化的效率也很低下。有前谷歌员工曾吐槽，谷歌的项目一般都是先吹一阵牛，然后什么也不发布，一年后再把这个项目给砍了。这一点在Sora的爆火上就能看到，训练Sora使用的扩散模型（diffusion model）、文生图模型，谷歌都有相应的技术储备和成果，但就是没能先搞出Sora这样的产品。

可以看到，由于一开始就押注错了赛道，等到大语言模型成为AGI最有潜力的实现路径，OpenAI领先的大势已成。这时的谷歌再要回到OpenAI所在的技术赛道上，当然就处于劣势身位了。

一步错，步步错的“人生”

挺住意味着一切

坦诚地说，谷歌已经在积极解决问题，包括技术战略选择失误、内部的管理效率人事冗余、AI技术人才的外流等。

去年4月，谷歌将自己的两个AI“扛把子”团队——谷歌大脑和DeepMind合并，共同进行Gemini的开发。从最终效果来看，Gemini的表现是很优秀的，1.5版本是目前全球最领先的大模型之一。内部资源也大幅度向AI领域倾斜，一些外流的AI人才回归谷歌。

实际行动表明，谷歌在明确了赛道之后，追赶OpenAI的决心和速度都是一等一的。

但持续落后的现实也充分诠释了一点：自己的失败固然可怕，朋友的成功更让人揪心。

尽管谷歌竭力解决自身的种种弊病，全力推动大模型，但架不住OpenAI的加速度更强大。

一方面，OpenAI的研发团队可谓是全力以赴，而谷歌新合并的团队还需要磨合。Sora核心研发人员Bill Peebles曾透露，团队每天基本不睡觉高强度工作了一年。而谷歌大脑和DeepMind合并之后，很多员工不得不放弃自己原本熟悉的软件，放弃原本开展的项目去开发Gemini，这些内部磨合导致的项目延迟、停滞，必然会给谷歌追赶OpenAI带来阻碍。

另外，相比谷歌亡羊补牢式地招回人才，OpenAI虹吸全球顶级AI人才的气势如虹。就在2月份，Altman公开在社交媒体上表示，“所有关键资源都已到位，非常专注于AGI”，在线诚聘人才。AI的竞争归根结底是人才的竞争，因为AGI最重要的是智力资源，而最顶尖最优秀的人才一共只有那么多，这也让人为谷歌能否追赶上OpenAI捏了一把汗。

电影《飞驰人生2》中，主角再度尝试赛车而翻车后，他没有继续追求赛场上的赢，而是作为一个深爱着赛车运动的车手，踏上赛场，只为证明自己。

谷歌与OpenAI的对线，也不能归于简单的输和赢。正如谷歌在「Why We Focus on AI (and to what end)」中所言：我们相信AI能够成为一项基础技术，彻底改变全世界人民的生活——这正是我们追求的目标，也是我们的激情所在！

所有勇于下场、站上跑道的AI“赛车手”，都值得掌声。而这场充满了速度与激情的AGI比赛，一定还会带给观众席上的我们，更多震撼。