ChatGPT，人类认知力延伸的竞赛

王兆善 2023-03-02 发布于上海

展开全文

2022年11月30日，OpenAI发布了ChatGPT，在全球范围内引发了人工智能热潮。ChatGPT（Chat Generative Pre-trained Transformer），即聊天生成式预训练转换器。它通过与人类做文字对话的方式，“与人进行实时对话，即时回答问题；可以做到理解上下文，实现连续对话；可以撰写和修改计算机代码；编写文案、脚本、大纲、策划；快速生成新闻报道、创作诗歌”等，提供相应的文字回答，且回答的内容“形式上合理”。

创新困境者的突围

人类从诞生开始，就一直不断地认识自然，改造自然。但当人类感到自己本体机能受限时，技术就应运而生。技术加强了人类的本体技能，其本质是人类的延伸。体力（手脚、躯干）的延伸促进了机械化的产生，感知力（眼耳鼻舌身）的延伸促进了信息化的产生，从工具到汽车，从PC机到AlphaGo，再到ChatGPT，认知力（意即大脑）的延伸促进了智能化的发展。

从AI技术层面来看，ChatGPT所能实现的人类意图，来自于机器学习、深度学习、转换器和多层感知机模型的多种技术架构及模型积累，最终形成针对人类反馈信息学习的大规模自然语言处理模型。截至2023年1月，ChatGPT的用户超过1亿，成为迄今为止增长最快的消费者应用程序。这是因为人们主观的认知和表达，以及自然科学和社会科学都要以具有实质性的内容作为基础和前提，没有内容就没有人类文明。ChatGPT的500多位开发科学家突破的就是“内容”这个困境！

突破困境，就会形成质的突变。数据表明，ChatGPT用了5天涨粉到100万，而苹果用了74天，推特用了2年，奈飞用了3年半。

理想主义者的坚持

ChatGPT是由OpenAI团队研发创造，OpenAI是由SpaceX创业者埃隆·马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等人于2015年在旧金山创立。OpenAI的创立目标是与其他机构合作进行AI的相关研究，并开放研究成果以促进AI技术的发展。

ChatGPT经历多类技术路线演化，逐步成熟与完善。其GPT（Generative Pre-trained Transformer，生成式预训练转换器）模型是一种自然语言处理模型，使用转换器来预测下一个单词的概率分布，通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。

从1950年AI始祖图灵提出基于规则的少量数据处理，给出判断机器是否具有“智能”的方法——图灵测试开始，AI技术开始了漫长的探索。直到30年后，机器学习出现，才以可根据一定范围的数据进行参数分类，但受限于技术水平，AI仅限于小范围实验。到了20世纪90年代，基于机器学习延伸出来的一个新的领域——深度学习出现了，它是以受人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展，并伴随大数据和计算能力的提高而产生的一系列新的算法。进入21世纪，获得突破的卷积神经网络（CNN）、循环神经网络（RNN）及其后来发展的生成式对抗网络（GAN）开始模仿人脑进行大量数据的标记和训练，分别在计算机视觉和自然语言处理领域得到广泛使用，带动了人工智能领域的蓬勃发展。

深度学习的发展让我们第一次看到并接近人工智能的终极目标，AI从实验性向实用性转变，但缺陷是受限于算法瓶颈，无法直接进行内容生成。

2017年，Ashish Vaswani et.al的论文《Attention Is All You Need》中，提出了一种新的简单架构——转换器（Transformer），彻底颠覆了过去的理念，没用到卷积神经网络和循环神经网络，它完全基于注意力机制，不用重复和卷积，因而这些模型在质量上更优，同时更易于并行化，并且需要的训练时间明显更少。该论文被评为自然语言处理领域的年度最佳论文。

Transformer出现以后，迅速跻身主流模型架构基础，使深度学习模型参数达到了上亿的规模。AI技术的发展也呈现出模型之争，重大研究方向就是自然语言处理任务。随之，自然语言处理任务就转入了两大流派的竞赛，按转换器架构可分OpenAI的自回归系列（例如GPT-3，偏好生成性任务）；谷歌的双向Transformer Mask的自编码系列（例如BERT，偏好自然语言理解）。

从2018年开始，谷歌率先提出了3亿参数模型BERT，陆续又推出了ELNet、RoBERTa、T5等，到了2021年则推出高达1.6万亿的参数量的Switch Transformer模型。2023年2月4日，谷歌注资3亿美元投资Anthropic，Anthropic 开发了一款名为Claude的智能聊天机器人，据称可与ChatGPT相媲美（仍未发布）。

而OpenAI也在两年左右的时间，先后推出了GPT- 1到GPT- 3，再到ChatGPT，参数实现了从亿级到上千亿级的突破，并能够实现作诗、聊天、生成代码等功能。作为OpenAI最大投资方的微软，开始利用ChatGPT提高产品竞争力，将ChatGPT整合进Bing搜索引擎、Office全家桶、Azure云服务、Teams程序等产品中。

此外包括微软、Meta、英伟达、华为、百度、阿里等巨头在内的全球领先企业纷纷参与其中，预训练大模型已经成为整个AI领域的竞争焦点。

混沌和近临界边缘者的冲浪

2022年，在ChatGPT温和聚变式的科技革命中，人工智能生成内容后来居上，以超出人们预期的速度成为科技历史上的重大事件，迅速催生了全新的科技生态。

在国内，2021年成为中国AI大模型的爆发年。众多公司和研究机构正在积极开展对大模型的研发。代表性的有华为云联合循环智能发布的基于昇思MindSpore打造的1000亿参数盘古NLP模型、联合北京大学发布2000亿参数的盘古α模型；百度推出基于PaddlePaddle 开发的2600亿参数ERNIE3.0 Titan模型；而阿里达摩院联合清华大学发布的中文多模态模型M6参数达到10万亿，将大模型参数直接提升了一个量级。

2022年，基于清华大学、阿里达摩院等研究成果以及超算基础实现的“脑级人工智能模型”——八卦炉（BAGUALU）完成建立，其模型参数模型突破了174万亿个，完全可以与人脑中的突触数量相媲美。

目前，大模型参数规模最高可达百万亿级别，数据集达到TB量级，且面向多模态场景（同时支持文字、图像、声音、视频、触觉等两种及以上形态）的大模型已成为趋势。大模型生态已初具规模。

值得期待的是，百度宣布将在2023年3月的某个时候推出一项中文名为“文心一言”或英文名为“ERNIE Bot”的ChatGPT式服务。

新一轮认知力延伸的竞赛是否又开始了呢？

《Attention Is All You Need》几位作者的选择或许有一定的代表性：时隔5年，8位作者仅有一位还留在谷歌。其中6人选择创业或加入创业公司，还有一位去了OpenAI。

2022年4月26日，一家名为Adept的公司官宣成立，以Ashish Vaswani为首的共同创始人有9位，Ashish Vaswani在南加州大学拿到博士学位，师从华人学者蒋伟和黄亮，主要研究现代深度学习在语言建模中的早期应用。2016年，他加入了谷歌大脑并领导了Transformer的研究。

Adept是一家致力于用AI来增强人类能力并最终实现通用智能的公司。在阐述公司创立初衷时，Ashish Vaswani写道：“在Google，我们训练出了越来越大的Transformer，梦想着有朝一日构建一个通用模型来支持所有ML用例。但是，这其中有一个明显的局限：用文本训练出的模型可以写出很棒的文章，但它们无法在数字世界中采取行动。你不能要求GPT-3给你订机票，给供应商开支票，或者进行科学实验”。

因此，他们打算创建一个通用系统，“你可以把它想象成你电脑里的一个overlay，它和你一起工作，使用和你一样的工具。使用Adept，你能专注于你真正喜欢的工作，并要求模型承担其他任务”。

也许，对于国内大多数在混沌和近临界边缘上冲浪的人来说，都应该好好思索一个问题：“是沿着Transformer和ChatGPT竞赛，还是换一个类似Adept的新赛道呢？”