从弱人工智能到通用人工智能：AI的演变与未来

天承办公室 2024-04-21 发布于广东

展开全文

SmartFlowAI

点击上方蓝字关注我们

想象一下，如果艾伦·图灵和约翰·麦卡锡有 Instagram，他们的帖子可能会让服务器崩溃！

在科技界的历史长河中，人工智能的发展历程就像是一场过山车，经历了激动人心的高潮和令人沮丧的低谷。1950年，图灵提出了“图灵测试”，仿佛在科技界投下了一枚深水炸弹。紧接着，1956年的达特茅斯会议上，麦卡锡正式提出了“人工智能”这个术语，引发了一场科技界的“大地震”。但是由于算力以及数据的限制，当年人工智能所提出的美好愿景并没有能够真正的兑现，也因此在上世纪的八九十年代进入了一段时间的寒冬。

随着计算能力的飞跃和大数据的浪潮，AI 终于在 21 世纪迎来了自己的春天。尤其是在2012年，AlexNet 在图灵奖得主 Geoff Hinton 的实验室里横空出世，AlexNet 不仅在 ImageNet 竞赛中一骑绝尘，更让世界看到了人工智能改变世界的巨大潜力。此后，语音识别、自然语言处理、自动驾驶汽车、医疗诊断等诸多领域在 AlexNet 的影响下均取得了显著进展。

—

弱人工智能与强人工智能的对比

“ 弱人工智能就像是个专注于一项运动的运动员，而强人工智能则像是奥运十项全能冠军，无所不能。”

虽然 AI 已经在学术界和产业界被广泛研究和应用了，但其对于绝大部分普通人而言还是比较遥远的。因为过去是由弱人工智能主导的，即设计和训练用来执行特定任务的智能系统。这种类型的AI并不具有真正的理解或意识，它仅仅在其被训练的特定任务领域内表现出智能。

举个例子，用 YOLOX 检测安全帽的模型，如果它有情感，可能会觉得自己的工作很“帽子”——它只能检测到安全帽的存在，却无法理解工人是否真的正确佩戴。后续假如我们假如想知道是否正确佩戴安全帽的话，可能还需要在数据上进行调整或后续的一些处理逻辑才能真正实现业务流程上的闭环。

而强人工智能，尽管尚未实现，却已经在 Transformer 架构的推动下，展现出了迈向全能的潜力。

02
—
聊天机器人的进化
“ 早期的聊天机器人（弱人工智能）可能更适合去当门卫，因为它们只会说“是”或“不是”。然而，基于 Transformer 的 ChatGPT 的出现，就像是聊天机器人界的“文艺复兴”，ChatGPT 在刚被推出的时候就受到了广泛的关注，是史上用户增长速度最快的消费级应用程序。”

以往 AI 常被我们戏称为“人工智障”，但 ChatGPT 除了一些敏感话题（比如涩涩或者政治）确实问什么能够回答什么，并且知识体系比你还更加丰富，这在以往的聊天机器人中是难以想象的。

这之间主要的差异在于，以前早期的聊天机器人主要依靠模式匹配和固定的回答库，它们缺乏真正的理解能力和灵活性。这其实也是前面我们所提到的弱人工智能。

比如苹果手机用户常见的 Siri 就是一个早期版本的聊天机器人。这一类的机器人会设定好一个回复的范围，比如说只在听到地点、闹钟或者特定的模式的情况下才会启动，当我们发出超过其数据库所支持的信息的时候，Siri 会选择拒绝回答，这也是为什么我们会经常觉得 Siri 有点笨笨的原因。

ChatGPT这种基于 Transformer 架构的大语言模型与传统的聊天机器人截然不同。这种模型通过在大量文本数据上进行预训练，学习了语言的深层结构和上下文关系，因此能够生成连贯且相关的文本。这个模型不是简单地遵循一套预设的规则，而是通过分析互联网上海量的数据来掌握词语间的逻辑关系，结合人类的强化学习以及指令跟随的微调，逐渐学会了用人类的方式进行交流。

这就像婴儿从小听到大量的语言，随着基本语法和表达方式的学习，孩子的语言能力会逐步成熟，最终能够流利地进行对话。

当然 ChatGPT 肯定不单纯是一个牙牙学语的婴儿，在我个人的角度看来，ChatGPT更像是一个学过网上所有知识的，能够使用大量工具且保守而道德的名校本科毕业生，但是只能进行短暂的理性思考，并对我们的问题只能产生有限的回复。

这样一个“名校本科毕业生”的训练过程远不是简单地制定几条规则那么简单，而涉及一个精心设计的模拟人脑的深层神经网络。模型通过大量文本输入，学习不同场景下的最优回应。然而，由于神经网络的多层复杂性，我们很难完全理解其内部工作机制，这也是为什么它被称为“黑盒模型”——我们只知道输入问题后，机器就会生成一个答案 A，但我们并不知道这个答案依靠的具体原理和触发的机制。这其实与大脑的运作类似，但 ChatGPT 的能力也确实已经对我们产生巨大的影响。

03
—
生成式AI的“超能力”

除了文字写作交流之外，当前的生成式AI技术已经扩展到听、说、读等多个方面。例如，ChatGPT可以借助 DALL.E 3 的功能进行图像生成，并能解析图片中的内容和信息。此外，OpenAI最新在手机应用上也支持通过语音与AI进行交互。用户只需口述问题，OpenAI的 Whisper 模型便能将语音转换为文字，并通过接近真人的语音回应用户。

还有就是最近非常火爆且由 OpenAI 推出的文生视频模型 SORA，它打破了视频生成行业过往技术的旧框架，不仅能够生成长达一分钟以上的高清视频，还支持连续视频生成和多角度展示，完全颠覆了我们对视频制作的传统认知（尽管虽然目前还没有完全放开让用户进行使用和测试）。

那既然 ChatGPT 能够拥有听说读写的能力，已经基本具备了一个工具“人”的前提条件。那假如我们能够为其打造一幅机器的身躯时期能够真正的做到某些的事情那岂不是更好。当然就已经有公司这么去做了，比如说下面图片所展示的 Figure，就是利用机器人与 ChatGPT 的结合使其能够明白自己接下来要做的事情，并且找到合适的程序去执行这部分内容。

04
—
生成式AI所带来的冲击与改变

从上面我所介绍的这一系列的技术进步和突破无不说明着当前的生成式AI工具正在慢慢的从某种特定领域的智能慢慢走向多领域综合智能方向上的发展，也就是我们所说的强人工智能。其能够开始通过文字、语音、图片等信息综合的回复我们。虽然在实际技术上，尤其是视频和图像生成方面还并不太成熟，但是真的已经在对我们现有的生活或者工作进行了冲击。

想象一下，我们在网页和ChatGPT对话就好像在对面坐了一个知识面很宽泛且丰富的人一样，并且 7* 24 小时的为我们进行待命。只要我们能够合理的提出我们的需求，他都能够第一时间给予我解答。无论这个答案最终到底是对不对的，但是其还是会为我们提供一些有益的思路进行进一步的工作。

这对于学生而言，由于他们的日常工作就是学习，有了 ChatGPT 那几乎就等于是请了一个有教无类的私教。我回想起自己研究生期间学习关于机器学习的基础知识的时候，很多问题不知道找谁能够去请教，就只能自己在B站或者YouTube上看视频一个个的来学习，而且由于代码能力弱，当代码出现Bug的时候也会很无力想放弃。但是现在有了 ChatGPT 后，几乎我们能够在数据处理以及模型训练方面实时的获取到帮助与回复，并且在遇到 Bug 时能够替我分析问题出在哪里以及要如何改进。

这样定制化的学习体验是无与伦比的，毕竟一些教学视频只能够针对于一个特定的问题，当这个问题稍微变换了一下可能就会导致错误的发生。但是ChatGPT真的能够基于你个人特定的问题进行针对性的解答，并且实时的反馈，就好像那只点击按钮能够获得快感的老鼠一样，我们点击就能够得到反馈和回复，我们真的可能会开始依赖这个技术来成长和进步。

另外，对于学生而言，其很重要的一个工作就是写论文。那在写论文的过程中我们其实经常会犯的一个问题就是写作过于口语化。这个其实也是我的亲身经历，我就在本科论文写作的阶段被导师说太多的口语化的内容，本质上来说就是不够简洁明了。一般来说我们假如自己不想学不想做的话，那是要找专门的润色公司或者收费软件来对论文进行处理的，但是假如我们现在有了ChatGPT之后，我们其实直接一部分部分丢进去让其帮忙润色就可以了，根本就不需要再花很多钱去找了，这其实真的会节省掉很多的时间。就像李宏毅老师在其生成式AI的课堂所提到的说，他会让所有他的研究生在发论文给他看之前先润色一遍，那这样就基本语言就会比较严谨一些而且不会有太多的语法错误。

那对于工作中的人而言，同样有其重要的价值所在。比如说现在很多无意义且空洞的“盒子工程”，其实就是内容没人看但是你得写完放进盒子里，那其实借助大语言模型的力量来生成这部分无意义的文字会比起自己写效率高很多。那除了无意义的文字工作以外，让原本没有代码能力的人拥有通过自然语言来编程来让自己部分的工作变得自动化，这也是非常重要的内容之一。编程语言的学习的门槛其实也是有一些的，就比如比较简单的编程语言python学起来也是需要一段时间的，但是现在我们都可以不用学习编程语言，而是通过ChatGPT这类大语言模型作为其中的'翻译器'来进行转换形成一个可以实际应用的代码文件，这本身就是一个很有价值的事情。

就拿解压文件来说，当我们需要手动一个个的解压然后点开的话，其实还是蛮复杂的，但是假如我们将文件地址发给ChatGPT然后让其对这个文件夹里所有的文件都进行解压，然后几行代码的运作就能够实现的话，这个还是非常方便且快捷的。除此之外，还有像是pdf转word以及图片文字提取这类的工作，python中也有大量的库去支持完成。那就不需要我们额外去寻找一些APP去执行这部分的事情了，直接通过代码又快捷又好用的来完成即可。

那无论是打工人还是学生，利用ChatGPT来完成一些文档总结或是资料搜索也是非常方便的，这其实就相当于一个加速器，对于能够利用好AI工具的人们来说，他们的学习速度或者工作效率会提升非常多。那对于老板而言，这也是非常高兴的，因为这样的效率提升对他们而言就意味着可能能够以更低的成本赚到更多的钱，这也是为什么我们看到国外的大型科技公司其实裁员都蛮严重的，毕竟很多的工作内容经过了AI的加速后就并不需要那么多的人完成了。并且现在的经济环境整体也是在下行趋势，很多的企业也都在进行裁员及优化，这个时候资本家们也更有动力去利用AI技术去优化人员提升整体收益。并且写一个应用AI的故事也可能会对公司的估值产生积极的影响，何乐而不为呢？

05
—
生成式AI的局限性

是不是开始有危机感觉得说大模型可能对我们产生威胁了。实际上大模型对我们的威胁还远远未到来。首先就是当下这个阶段的AI在面对实际复杂的工作的时候还是很难独自去完成。即便是使用上Agent技术的AutoGPT，实际测试下来真的要完成某一个相对比较复杂困难的任务的时候经常会错误百出，很难真的能够组合成一个团队完成某些特定的任务。又比如说最近很火的AI程序员Devin，虽然其能够做到大量的编程相关的任务，并且在SWE-bench上自动正确解决问题的比例也远高于Claude 2（4.80%）以及GPT-4（1.74%），但是实际的正确率也仅仅只有13.86%，还远没有能够做到替代程序员的可能性。

除此之外，之所以现在的生成式AI很难取代现在的人类，其实有一个更重要的原因就是消耗的能源。我们应该都知道训练一个大模型所需要花费的时间以及算力都是非常庞大的，经常就是一个模型用几万张显卡训练个几个月才能得到一个基础模型，那每一张显卡的运行都是依靠的是电力资源，虽然在一些水资源或者太阳资源丰富的区域里电价可能会比起单纯的火力发电比起来便宜，但是整体来说为了让大模型训练出来以及后期来自全网的大量模型推理，这其中的产生的能源消耗以及碳排放都是难以想象的。就如下面这张图所展示的那样，在2022年时候就统计了训练175B的GPT所花费大约500吨的碳排放，而人类生活一年所产生的碳排放也就才5.5吨。未来在国内有指标要实现碳达峰和碳中和的情况下，碳排放可能就变成一个权力了，我们到时候可能都未必能够买得到足够的碳排放额度来训练模型了。

与基于深度学习的大模型所消耗的能源相比，人脑则有着其得天独厚的优势。人脑在处理信息和执行复杂任务时，能源效率远超现代计算机和AI系统。据研究表明，人脑的能量消耗大约为20瓦特，相当于一个小型灯泡的功率，而当前的AI系统在执行相似的任务时可能需要数千倍的能量。此外，人脑在处理不确定性、进行抽象思维以及学习新技能方面显示出了极高的适应性和灵活性，这些是目前的AI技术难以匹敌的。因此，尽管AI在处理大量数据和执行特定算法方面表现出色，但人脑在能源使用效率和处理复杂性方面仍保持着明显的优势。

但是其实我们也并不能完全的掉以轻心去不担心AI会将我们取代掉。在李飞飞联合领导的斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了的《2024 年人工智能指数报告》（Artificial Intelligence Index Report 2024）中就指出，人工智能在某些任务上已经超越了人类，比如说图像分类、视觉推理以及英语理解等方面。当然在在竞赛级数学、视觉常识推理和规划等更复杂的任务上依然落后于人类。但是随着AI技术飞快的发展，越来越多的模型在不断迭代升级。2022年11月才发布的GPT-3.5,2023年3月就推出GPT-4，并且最近要推出GPT-5的留言也越来越甚嚣尘上。未来会变成什么样是真的很难去预测。

06
—
总结

总的来说，在这个时代下，我们作为人类而言，其实真的需要好好思考一下大模型的能力局限以及人类的特长所在。在AI模型做得很好的地方，我们其实可以利用AI工具来完成，比如说一些简单的重复工作，这些就交给AI来写程序就好。但是对于AI模型做得不好的地方又是人类所擅长的地方，比如说复杂的思考与分析，那我们就要积极的抓住这些机会，努力的发展出竞争性的差异，从而避免在未来与AI的竞争中落于下风。那假如想知道我们需要培养的品质和能力有哪些，敬请期待下期关于AI时代下我们所需的品质与能力的介绍吧！

SmartFlowAI

新鲜时事

AI 前线