湖南大学王耀南院士：AI大模型驱动的具身智能人形机器人技术与展望

張先民 2025-04-21

展开全文

文章来源：曾凯,王耀南,谭浩然,等. AI大模型驱动的具身智能人形机器人技术与展望. 中国科学:信息科学,2025,doi: 10.1360/ SSI-2024-0350

温馨提示：扫描下方二维码，加入知识星球，免费下载1500 行业报告

近期，湖南大学机器人视觉感知与控制技术国家工程研究中心王耀南院士团队发表了《AI大模型驱动的具身智能人形机器人前景与技术》的文章，小编将主要内容进行总结，供大家参考，同时附上全文，供大家阅读。

摘要：人形机器人是机器人技术的集大成者,在服务国家重大战略需求中扮演着重要的角色,可以协助或取代人在危险、肮脏和重复的环境中,执行各种类型的任务.本文以人工智能(artificialintelligence, AI) 大模型驱动的具身智能人形机器人技术与展望为切入口,系统介绍人形机器人的发展背景与意义, 重点阐述大模型技术,如大型自然语言模型、视觉Transformer、视觉语言模型、视觉生成模型、具身多模态大模型等,并从分布式模块化大模型技术、端到端一体化大模型技术、云边端协同化大模型技术等3个方面,详细介绍AI大模型驱动的具身智能人形机器人关键技术. 具身智能人形机器人的应用场景十分广泛,而大模型技术的发展为机器人感知识别、认知决策、规划调度、行为控制注入语言理解、视觉泛化、常识推理等关键能力,进一步推动人形机器人在智能制造、国防安全等领域的应用. 最后本文探讨了大模型驱动的具身智能人形机器人的技术挑战与展望。

通用大模型与具身智能人形机器人的核心关键技术

通用基础大模型技术

自然语言大模型(LLM):基于Transformer架构(如GPT-3/4、LLaMA)，通过海量文本训练实现语言理解和生成，赋予机器人对话、指令执行和跨模态推理能力。
视觉Transformer(ViT):将图像分割为块序列，通过自注意力机制提取全局特征，在目标检测(DETR)、图像分类(DeiT)等领域表现优于传统卷积网络。
视觉-语言大模型(VLM):结合视觉编码器和语言解码器(如Flaming0、KOSMOS-1)，实现跨模态信息融合，支持图像问答、指令跟随等任务。
视觉生成大模型:基于扩散模型(DALL-E、CogView)生成高质量图像或视频，强化机器人的场景模拟与预测能力。
具身多模态大模型:整合视觉、语言、动作等多模态数据(如VLA模型)，支持机器人与环境交互和自主决策。

大模型驱动的人形机器人关键技术