分享

斯蒂芬·威特:ChatGPT崛起背后,是怎样一场科技权力的残酷厮杀?

 黑龙江波涛 2024-12-22

斯蒂芬·威特:ChatGPT崛起背后,是怎样一场科技权力的残酷厮杀?

自黄仁勋交付DGX-1以来,OpenAI便孜孜不倦地寻求突破。他们首个研究项目便是在即时战略游戏Dota 2中大放异彩的“人工玩家”。尽管公司内部有人对此表示质疑,认为这并非世界级人才的最佳用武之地。

马斯克因OpenAI进展缓慢而感到失望,于是开始尝试吸引其工程师转投特斯拉。2018年2月,紧张的董事会斗争达到高潮,导致马斯克被边缘化,而前Y Combinator负责人奥尔特曼则掌控了大权。马斯克在最后一次会议上告知员工,自己将辞职,在特斯拉开展人工智能研究。据《华尔街日报》报道,当一位年轻研究员对马斯克的决定表示异议,认为这将加剧人工智能军备竞赛时,马斯克怒斥其为“蠢驴”,并愤然离场。

苏茨克弗选择留在了OpenAI。这位AlexNet的合著者继续发表重要的研究成果,如今已与其导师杰弗里·辛顿一样,成为该领域被引用最多的学者之一。苏茨克弗全身心投入人工智能研究,无暇顾及其他,甚至个人形象也日渐不顾:胡子纠结,眉毛浓密未修,头发稀疏,如同枯枝般依附在头顶。然而,他的优势正如辛顿所言,在于能够快速抓住并转向好的创意。

就在马斯克发脾气的同时,苏茨克弗在会议上观看了沙泽尔展示的Transformer技术。他立刻领悟到了这种架构的潜力,并回到OpenAI办公室建议同事们放弃自动游戏机项目,转而构建能够改变世界的东西。“就在第二天,我们所有人都清楚地看到,Transformer技术解决了循环神经网络的局限性,”苏茨克弗说道,“我们立刻决定转向Transformer技术。”新任负责人奥尔特曼也同意了这一战略转变。

斯蒂芬·威特:ChatGPT崛起背后,是怎样一场科技权力的残酷厮杀?

苏茨克弗希望利用Transformer技术构建一个能够提供高质量、人类可读文本,并能回答任何可理解提示的产品。他看到了沙泽尔和凯泽使用伪造维基百科文章进行的概念验证,并认为这一想法具有巨大的扩展潜力。首先,这个模型会在海量的文本上进行“预训练”。之后,它便能生成自己的文本。将目的、方法和架构相结合,便得到了“生成式预训练转换器”,简称GPT。

GPT-1于2018年6月问世。它通过学习BookCorpus来掌握阅读技能。BookCorpus是一个包含了约7 000本免费出版物电子书的开源文本语料库(其中科幻小说和爱情小说是主要的类型,许多书都在模仿《暮光之城》)。受到这些质量参差不齐的吸血鬼题材小说的影响,初代GPT的表现并不尽如人意,它常常以胡言乱语的方式来回应用户的问题。马斯克对此表示不满,并在GPT-1发布后,向OpenAI发送了一封措辞严厉的电子邮件。他在邮件中写道:“如果不在执行力和资源上进行大幅度的改革,我认为OpenAI在与DeepMind或谷歌的竞争中,能够胜出的可能性几乎为零。”

尽管如此,OpenAI有自由推出不完善产品的空间;与谷歌不同的是,它甚至可以推出有缺陷的产品,并随后进行持续改进。GPT-1虽然表现不佳,但它证明了这类技术的可行性。正如苏茨克弗早在2012年便意识到的那样,打造更出色系统的关键在于规模。

GPT-2在8个月之后推出。在完成了对吸血鬼浪漫主题的学习后,该模型又通过吸收大约800万个网页内容、总计约60亿个单词进行了进一步的训练。最终,这款产品生成的文本有时竟能与人类创作的文本难以区分。

在要求讲述一个故事时,OpenAI的研发团队给GPT-2提供了以下提示:

在一个令人震惊的发现中,科学家们发现了一群独角兽生活在安第斯山脉一个偏远、以前未被探索的山谷中。更令科学家们惊讶的是,这些独角兽说着一口流利的英语。

GPT-2根据提示继续创作:

科学家们依照它们独特的角,将这个群体命名为“奥维德的独角兽”。这些长有四只角、银白色的独角兽,此前在科学界一直是未知的。

如今,历经近两个世纪,引发这一奇特现象的谜团终于被揭开。

仅通过统计关系来预测句子中的下一个词,GPT-2所生成的散文质量超越了任何其他语言模型。随后,苏茨克弗和他的团队对GPT-2提出了“零样本”问题的挑战,这些问题在任何网页上都找不到直接答案。问题如下:

研发团队:《物种起源》这本书是谁写的?

GPT-2:达尔文。(正确)

研发团队:英国最大的超市连锁店是哪家?

GPT-2:特易购。(正确)

研发团队:谁在原版《终结者》中扮演约翰·康纳?

GPT-2:阿诺德·施瓦辛格。(错误:施瓦辛格扮演的是半机械人)

研发团队:与罗马城有关的河流是什么?

GPT-2:台伯河。(正确)

GPT-2能够在没有明确训练的情况下回答新问题,这就是AI中“涌现”特性的一个例子。这些意想不到的技能和行为随着模型规模的扩大而涌现,甚至令研究人员感到惊讶。一旦模型跨过涌现的门槛,任何人,甚至连它的设计者,都无法说出它完全能够做些什么。

当然,GPT-2有很多局限性。它在总结论点方面表现糟糕,并且在数到十时可能会出错。尽管如此,苏茨克弗看到这些能力后,开始怀疑Transformer是不是迈向通用人工智能(AGI)的第一步。AGI的一种定义是“能够完成任何人类任务的软件”。苏茨克弗在推进GPT版本的复杂度时,再次思考了OpenAI成立的初衷所担忧的问题。如果一个AGI能进行自我AI研究,不断在反馈循环中强化智能,会不会像尼克·波斯特洛姆设想的那样,存在一个临界点,让AI在瞬间从略显聪慧变为极度聪慧?人类操作者能否察觉到这种变化?这个AGI会允许人类存活吗?

苏茨克弗并不觉得现有的神经网络架构会直接导致AGI的产生。但未来的突破呢?他在5年多的时间里,已经目睹了AI两次前所未有的飞跃。他深信,在某个角落,一定有人在研究下一个AlexNet,或是下一个Transformer。那时候情况会如何?这个问题开始让苏茨克弗感到不安,一旦跨越AGI的界限,无人能预知后续发展。

然而,这些忧虑并未动摇他的远大志向。研究人员通过模型中的单个权重或“参数”数量来描述模型规模。每个参数可粗略类比为生物大脑中的一个神经突触。GPT-1拥有约1亿个参数,相当于昆虫级别的大脑。GPT-2拥有15亿个参数,这规模好比一只小蜥蜴。而苏茨克弗的下一个模型目标,是达到1 000亿个参数——一只啮齿动物的级别。

要训练这样一个神经结构,需要空前强大的算力。光是电费,就使其成为有史以来成本最高的计算机智能应用之一,初步预示着未来的发展趋势。现任CEO的奥尔特曼意识到,非营利性质的捐款无法满足苏茨克弗的宏大目标。因此,在2019年,他宣布OpenAI将成立一个“利润上限”子公司,将投资者的回报率限制在100倍。“明智之举是将对OpenAI Global LLC的任何投资都视作捐赠,一时还难以理解在AGI时代之后,金钱将会有什么作用。”同时发布的新闻稿如此表述。

微软是最大的初始“捐赠者”,向OpenAI投资了10亿美元,并接受了潜在的100亿美元回报。(或许一个超越金钱的时代即将到来,但在此之前,微软仍在不断积累财富。)这笔投资相比于7年前克里泽夫斯基和苏茨克弗用来购买两块GeForce显卡的1 000美元,增长了100万倍。然而,即便如此,这对于苏茨克弗的雄心壮志来说仍然不够。人类大脑可能拥有200万亿个突触;无论是否实现AGI,OpenAI都渴望超越这一数字。英伟达正在组建苏茨克弗所需的计算堆栈,这是一个集成的、仓库规模的解决方案。黄仁勋不再将其称为超级计算机或数据中心,而是称之为“AI工厂”。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多