给政治局讲人工智能的西安交大郑南宁报告全文

图书馆home 2025-04-27

展开全文

中共中央政治局4月25日下午就加强人工智能发展和监管进行第二十次集体学习。西安交通大学教授郑南宁同志就这个问题进行讲解，提出工作建议。

今天刊登一则郑院士做的一个报告，讲得非常好，难怪能给政治局讲课。以下为报告全文：

大家好，今天我报告的题目是“机器行为与具身智能”。

首先，我们来看一个相对简单的十字路口场景，场景中有行人、有非机动车和机动车，我们看一看它的动态场景是如何构成的？十字路口的交通场景是不可预测的，但场景中的每个对象或称之为Object直觉的判断和他们对相互之间的行为关系的理解，形成了这样一个相互关联的稳定系统。

人在这些场景中能够迅速的理解和判断各个对象在空间及其行为的关联性。而自动驾驶也必须要能够抽象和表述这种关联性，才能做出准确地判断，而事实上我们要让机器机基于规律对交通场景的动态变化进行事先编码是做不到的，我们需要研究在这种交互场景中，多个自主体的自适应行为。

举例来看，在F1比赛中，工作人员利用团队协作可以迅速地完成车辆轮胎的替换工作，如何利用机器人集群协作完成某项任务并给出科学的解释，是一个值得探讨的问题。

讨论1：机器行为模仿与解释

解释行为是一个比产生行为更为困难的任务，因为几乎人类所有的行为都是从环境中学来的，即刺激反应的结果。并不都像思维和情感这样的内部事件，一台图灵机能以一种无法与人类区别的方式活动，但产生出这样的行为模仿并不足以模拟人的智能，因为两者是一个完全不同的问题。解释必须尽可能清晰地给出潜在的概括，并将它们与某些普遍的原理联系起来，这就是认知过程的理解。

如果我们从人工智能技术的发展来看，我们可以把人工智能技术的发展分为如下阶段：

第一阶段，统称之为“专家学习系统”，专家系统是将领域知识和规则交给机器去搜索。

第二阶段，简称为“特征工程”，所谓特征工程是讲事先定义的特征和答案交给机器去学习。

第三阶段，是将原始数据和标签交给机器，利用深度神经网络让机器自动学习特征。在这一阶段人工智能取得了惊人的发展，特别是机器在语音和图像识别与分类能力方面超过了人类。

当前人工智能发展朝着第四阶段的方向发展，人类只需要将任务和目标交给机器，机器就可以像人类一样感知和理解世界，人与人之间或社会会与物理世界自然交互，也就是说在这一阶段探索具有人类意识的人工智能系统，像人类一样在广泛的任务和环境中进行学习和适应，实现通用人工智能。

通用人工智能理论上是具有自我意识、自主思考、学习计划、解决问题以及理解复杂概念的能力，它可以在新的未曾遇到的情景下适应并执行任务，这需要广泛的背景知识和常识，还有抽象思维和判断等人类智能所有的关键特征，这是一个充满着不确定性的未来目标。

讨论2：机器行为面临的挑战

人工通用智能现在不仅仅在技术上面临着重大挑战，而且还面临着道德伦理、社会和法律等一系列重大问题。

研究复杂动态不确定环境中的机器行为，存在着两个基本问题：

一、条件问题，是我们不可能枚举出一个行为的所有先决条件；

二、分枝问题，是我们不可能枚举出一个行为有可能产生的所有隐性结果。

传统的人工智能基本理论框架是建立在演绎逻辑和语义描述与形式化方法的基础上，形式化的方法不可能为所有的对象或行为建立模型。

机器行为研究面临的挑战，就是如何使人工智能系统具有合作性的行为。

德国心理学家设计了一个儿童心理学实验，实验中一位一岁半的儿童和妈妈坐在同一个房间的角落里，一位成年人走进房间想打开柜门，他一遍遍的撞击着柜门，这时神奇的场景发生了，并没有人直接向这位孩子求助，也没有人向他发出指令，但一岁半的孩子摇摇晃晃走过来，帮助这个成年人打开了柜门。

该实验试图想证明孩子可以自发的帮助别人，但这个实验却对人工智能提出了一个重大挑战，我们能否通过理解这个一岁半孩子的脑内所想，让机器人也能具有这样的智能性、灵活性与合作性行为？

这个实验告诉我们，智能机器不能从工程机器的角度去理解它们，而且要将其视为一系列有自己行为模式及生态反应的个体或机器群体。

另外一个实例，给出一段西安绝句“海棠不惜胭脂色、独立蒙蒙细雨中”。让计算机语言理解的程序和人，分别从一个图像数据库中找出最贴切这段诗的图像。计算机找出了这样一幅图，海棠上挂满着雨滴，正真是“海棠不惜胭脂色、独立蒙蒙细雨中”。而人却给出右边这幅图，一位亭亭玉立的少女在蒙蒙的细雨中没有打伞，行走在幽静的小道上。被测试的人在内心把这位少女比作海棠，在这样的雨天这位少女全然不顾风雨的存在。人类理解诗歌往往是在内心深处将想象力带入现实，通过自身的认知去欣赏。

这首西安绝句是宋代诗人陈与义所写的《春寒》，当时金兵入侵，南宋小朝廷处于山河破碎风飘絮，诗人南渡避难，借助在巴陵友人的后院，自号“园公”。2月的巴陵几乎天天下雨，料峭的春寒还未结束，此时诗人流离失所，漂泊无依，不由地联想起自身的境遇进行感怀，写下了这首诗。

在这里，我们看到一幅图像到了人类观察者的脑中，在他的内心深处将想象力带入了现实，图像变成了生动的场景故事。这里简单的语言与图像的联想，说明许多重要的AI应用，例如机器视觉和自然语言理解需要大量对世界的认识信息。

为此，计算机需要掌握知识，这是几乎所有AI研究者都同意的观点。想象是人的一种虚构的能力，也就是人可以想象不存在事物的能力，但如何更加有效地把知识传授给机器人，依然是我们今天面临的一大挑战。

讨论3：机器行为的研究范围

诺贝尔奖获得者西蒙教授，在《人工科学》这本书中指出：自然科学是关于自然体和自然现象的科学知识，也有人工科学关于人工物体和人工现象的知识。

如今，大量的智能机器应用于人类社会的各个角落，几乎所有层面。机器行为研究关注的是智能机器，而非传统的机械。它的研究范围有：机器行为生成的人工设计，智能体如何凭借经验产生行为。还有机器行为的可解释性，智能体如何根据场景响应机器行为。

机器行为一旦失去监督所带来的潜在危害是什么？

这些问题与智能体和人工智能行为的信任是密切关联的。诺贝尔奖得主、荷兰动物学家Tinbergen提出：想要全面地理解一个演化出来的特性，我们需要回答四个问题：

1、行为生成的机制，智能体生成行为的机制基于其算法和执行环境的特点，我们利用可解释性技术可以来理解特定行为模式背后的特定机制；

2、行为的发展，智能体的行为是随着时间的推移而发展，这就需要研究机器是如何获得特定个体或机体行为。行为发展可以是工程选择的结果，也可能是来自智能体的经验；

3、行为的功能，行为分析需要了解特定行为是如何影响智能体全生命周期功能，研究行为对智能体特定功能的影响；

4、行为的进化，智能体容易受到进化历史和与其他智能体交互的影响，从这个角度来看，研究机器行为需要关注智能体的进化。

以上这四个问题就构成了演化思维的四个工具，需要强调的是发展并不仅仅意味着一种行为的出现，而是发展过程中行为机制的变化。

讨论智能个体如何获得特定的行为，即机器行为的发展。这里有三个基本的途径：

第一个途径：人类通过算法直接赋予机器行为的发展；

第二个途径：利用特定的交互训练，刺激、塑造机器行为；

第三个途径：机器通过自身的经验获得某些行为，比如说机器可以通过记忆或强化学习等方式自主获得某种行为的能力。

机器行为的进化过程中，机器行为可以在发展中与所处环境和人不断地交互，朝着环境和人特定的方向进化。

同时由于机器不同于生命体，它的进化可以突破某种生命体的局限性，而且可进化的机器行为可以传播至群体广泛的机器行为存在，也可能受到某些限制，阻止其传播，机器可表现出非常不同于有机进化的轨迹。比如进化后的无人驾驶算法，可以共享至无人驾驶汽车群体，实现行为能力的传播。

对此，我们对人与智能机器的行为关联做一个小结：

1、机器塑造了人类行为：在社会系统中引入智能机器可以改变人类行为的方式，智能机器具有改变社会结构的潜力。

2、人类塑造了机器行为：人类通过对人工智能系统进行主动输入或被动行为观察的训练来塑造机器行为，使用算法直接来改变机器的行为。

3、人机混合协同行为：大多数人工智能算法在复杂的混合系统中与人类共存的领域发挥着重要作用，如何分析和刻画这类复杂系统中人机交互的属性和行为，包括合作、竞争和协调都是至关重要的问题。

讨论4：具身智能和行为生成

具身智能是一种机器自主感知环境、学习和理解行动的能力，从生物进化的角度来看，地球上所有智力活动都是生物通过自己的身体与环境交互后，通过自身学习与进化遗留下来的智力遗产。

智能是具身化和情境化的，具身智能强调智能生物的智能化程度和它的身体结构存在着很强的相关性，也就是说身体不是等待加载算法的机器，而是身体本身应该参与算法的进化。

非具身学习和具身学习对比是有差异的。非具身学习一般通过“大模型无监督预训练+小样本有监督微调”范式训练神经网络，训练得到的深度学习模型可以直接部署到不同的硬件环境，即算法的学习独立于硬件与环境，性能表现完全取决于模型的泛化能力。而具身学习通过在虚拟环境中训练大模型得到常识表征，在具体场景中通过强化学习来完成模型的进化，模型可以在特定的硬件和环境中完成自主的适配。

由于大模型利用了超大规模的训练数据，并且包含大量参数，使得它具备了超强的泛化能力与优秀的应用性能。大模型的具身智能行为生成可以分为两大部分：一、人机交互；二、系统与环境的交互在人机交互部分，人与自然语言或图文信息的形式，将任务需求输入到多模态大模型中，模型对不同形式的输入进行特征的嵌入后，完成任务理解和概念推演，并生成知识和决策，最后由机器人生成面向任务指令的相应行为。

在系统与环境交互部分，机器人首先利用自身传感器，完成对情境的具身感知，然后根据大模型的学习结果对情境产生行为，最终完成行为的输出。

讨论5：基于表征学习与因果推理的具身智能计算框架

要想使机器具有类人的认知能力，首先要建立事件模型，将物体、事件、事实等知识进行有效表征，进而构建一个持续学习的系统，在解决一个具体任务时，机器根据感知数据、意识先验、表征学习、知识库进行推理，寻找完成任务的最优策略。

意识先验的概念比较抽象，当你处在一个情景中，试图去理解它，你会意识到它某些现实层面的情景或过去的经历。意识先验是在原始输入和某些更高级表征基础上形成的抽象层次。

讨论6:动态开放环境中的人机协同的具身智能

为了让具身智能表现的更像人类智能，还需要在动态开放的环境中强化人机协同。以往的运动策略学习倾向于把人排除在外，仅由试错、搜索获得尽可能大的长期累积回报的策略，无法适应开放动态的环境。

而人在回路的决策学习，由任务、目标引导搜索，实现行为决策的类人化。此外，还可以通过嵌入式视觉学习、模仿学习和交互学习，引入人的作用。

动态开放环境中人机协同具身智能的一种基本框架。人在回路的人机协同决策可以使具身智能向人类学习。自动驾驶系统通过行为克隆向人类驾驶员学习，自动驾驶系统通过10个小时的学习已具有基本的驾驶行为，但仍然无法避障和应对突发事件。

自动驾驶面临着哪些挑战？

自动驾驶是开放环境中一类重要典型具身智能系统，在复杂交通环境下，自动驾驶安全要有可靠的驾驶行为。

首先，它需要解决复杂交通场景中的“周密感知”，无论天气或照明情况如何，必须在所有条件下检测道路特征。

其次，它需要进行“预行为”的理解，因为人类驾驶员都是根据预行为传达行驶意图。

再次，它需要对“意外遭遇”做出应对，而简单的基于规则的自动驾驶不可能提前为每个场景编码。

最后，“网络安全”，如软件的漏洞或黑客的恶意行为等等。

自动驾驶行为是如何生成的？

首先，系统结合经验与常识、场景理解以及交通态势评估，并利用模型对结构化道路场景和非结构化道路场景进行预训练，生成导航路径。

随后，基于具身智能完成目标状态采样、待选运动路径生成和最优运动路径选择，进行运动规划，最后生出合理的、可执行的驾驶行为。

重点讨论自动驾驶行为决策，将思维抽象为符号计算对人工智能的发展产生了重大的推动作用，但为所有的交通对象建立模型是不可能的。

带来这些困难的一个直接原因是：许多交通场景的复杂性和动态性，并不都是可观测和可控的，行驶过程中对异常情况的处理能力，是无法通过事先大量样本训练得到，而且也无法获得大量的负样本，交通事故就是一大类负样本，而人类驾驶员开车是将车外的无穷状态空间约简为动态变化的“可行驶”的“二域状态空间”，自动驾驶行为决策就是要寻找一个可行驶区域。

因此，从认知层面要解决的问题，就是如何把复杂未知的现实世界，变化成有限空间环境的语义理解，我们把它称之为一种直观的理解。

怎样定义自动驾驶这个问题？

需要把场景感知和情景认知区别开来。

所谓场景是指某个交通场合在一个特定的时间和特定的空间中，具体情景或景象，可以定义为一种实体，当然这种实体的描述是通过传感器的数据来获得的。

情境是指某一段时间和空间许多具体情形的概括，情境的境是指构成和隐含在场景中，相互交织的因素及其相互之间的关系，所以情境计算是对场景中各个对象在空间的行为交互关系解释，交通场景中各种物体或对象空间关系和行为的描述在自动驾驶中就显得非常重要了。

如何发展一种具有进化的、自主学习的自动驾驶系统？

需要从认知的角度去了解人类驾驶员是如何注意并获取交通环境信息的。而交通环境信息是如何在大脑中存储和加工的，特别是在产生驾驶行为的背后存在怎样的内部表征。

首先，我们来看看人类驾驶员如何注意并获取交通环境的信息。在交通场景认知的选择性注意中，目标的重要性是一种高级属性，它包含目标的物理属性、运动属性、行为属性。

其次，我们以交通场景的注意、记忆和学习过程为例，简单讨论人类对交通场景认知的加工机制。人的大脑对感觉记忆中的一些特定信息的注意即选择，对注意到的信息进行组织，再通过学习在短期记忆中建立联系，将长期记忆的信息传递到短期记忆，以连接传入的数据，即整合。最后将短期记忆的内容进行编码，转换为长期记忆。

在组织、整合与编码之间存在着交互机制，实际上人在知道发生了什么之前，他的注意力已被显著性对象所捕获，人类驾驶员对交通场景的理解是在记忆和先验知识的基础上进行的模式匹配。

自动驾驶算法需要在一定程度上引入人类对交通场景认知的加工机制，人类对变化非常敏感，突然变化，比如说颜色、纹理、大小、位置、运动，对注意力影响最大。

注意机制已经成为构建自动驾驶AI架构的灵感来源。

产生驾驶行为的背后存在怎样的内部表征问题？

人类驾驶员在驾驶过程中是将车窗外无穷状态空间约简为动态变化的“可行驶”和“不可行驶”的“二域状态空间”，并根据常识和交通规则，以及对交通场景的感知来产生相应的驾驶行为。

因此，自动驾驶需要对交通环境进行分层的认知表征，它们分别是空间定位层、行为模型层、知识策略层和任务驱动层，这样就可以从认知的层面将复杂、未知的现实世界变换成有效的自觉物体的语义推理。

如何构建自动驾驶环境的“认知地图“？

构建自动驾驶认知地图需要包括车辆、交通标识、障碍物、行人等构成的可行驶区域的基本属性。同时要有递归网络所学习到的关于预注意机制、驾驶意图等高级认知属性，把车辆当前状态与交通知识作为认知地图的一部分。

要根据场景动态的变化，来形成实践上的认知地图的训练。依赖认知地图就可以使自动驾驶系统从类人的角度去理解交通场景正在发生的动态随机变化。

这里进一步给出一种具有选择性注意机制的自动驾驶认知计算实现架构。在这个计算架构中，利用卷积神经网络提取场景的显著性空间特征，这些特征与先验知识相结合，形成一种对时间可视化认知地图，通过长短期记忆的注意机制，界定认知地图中物体间的关联，然后通过价值迭代模型将对环境的认知映射到行为空间，给出行驶决策。

仿真测试也是自动驾驶重要的关键技术之一，自动驾驶汽车在大规模商业化应用前需要进行大量的测试，相关研究报告指出：在不犯错误的情况下，自动驾驶汽车需要行驶4.4亿公里，才能证明其在车祸致死率和人类驾驶员的水平相当。

假设由100辆自动驾驶汽车，每天测试24小时，一年测试365天，测试平均时速60公里每小时，需要耗时8.37年。相当于一辆车在地球与月球之间往返572次，显然采用实际道路测试将耗费大量时间。而仿真测试可以提供一种高效率、低成本的自动驾驶测试。

作为自动驾驶重要的关键技术，仿真测试需要关注的一大挑战为异常交通场景的感知与处理，由于异常交通场景出现概率低、缺乏测试数据，因此需要利用图形学、计算机视觉生成多样化测试数据，在仿真环境中对自动驾驶车辆进行充分快速的测试验证。

这里我们给出了一种基于大模型的自动驾驶仿真技术的基本框架，应用机器学习可以生成多样性交通场景来评价自动驾驶系统在不同交通场景下的驾驶性能，如安全性、舒适性、协调性，以及算法的可靠性，以及是否遵守相关法律法规。该基本框架由数据集包括注入的真实传感器数据、机器场景描述、测试场景分类、典型场景选择与表征、典型场景生成，包含一些副样本等五大部分组成。

这里是自动驾驶仿真系统测试生成多样性交通场景，如前车变道，对交通场景标识识别，夜间会车，以及前方突然出现行人。我们团队开展自动驾驶研究二十余年，走到今天我们取得了很大的进步，但实现完全自动驾驶依然是一个令人兴奋而又望而生畏的艰难挑战。

最后给出一个移动智能体在开放环境下基于视觉和激光雷达生成导航路径的短视频。

今天我的报告就到这里，谢谢大家！