分享

上交校友获最佳论文,机器人顶会 2022公布

 mynotebook 2022-12-20 发布于湖南

自 2017 年首次举办以来,CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。CoRL 是面向机器人学习研究的 single-track 会议,涵盖机器人学、机器学习和控制等多个主题,包括理论与应用。

2022年的CoRL大会于12月14日至18日在新西兰奥克兰举行。

图片

本届大会共收到504篇投稿,最终接收34篇Oral论文、163篇Poster论文,接收率为39%。

图片

目前,CoRL 2022 公布了最佳论文奖、最佳系统论文奖、特别创新奖等全部奖项。宾夕法尼亚大学GRASP实验室硕士、上海交通大学校友Kun Huang获得了大会最佳论文奖。

最佳论文奖

获得本届大会最佳论文奖的是来自宾夕法尼亚大学的一项研究。

图片

  • 论文标题:Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning

  • 作者:Kun Huang、Edward Hu、Dinesh Jayaraman

  • 论文链接:https:///pdf?id=sK2aWU7X9b8

论文摘要:通常来说,物理相互作用有助于揭示不太明显的信息,例如我们可能会拉一下桌腿来评估它是否稳固,或者把一个水瓶倒过来检查它是否漏水,该研究建议可以通过训练机器人来自动获得这种交互行为,以评估机器人尝试执行技能的结果。这些评估反过来作为IRF(interactive reward functions),用于训练强化学习策略以执行目标技能,例如拧紧桌腿。此外,即使完全训练完成之后,IRF也可以作为改进在线任务执行的验证机制。对于任何给定的任务, IRF训练非常方便,并且不需要进一步的规范。

评估结果表明,IRF 可以实现显着的性能改进,甚至可以通过访问演示或精心设计的奖励来超越基线。比如下图中,机器人必须先关门,然后旋转对称的门把手才能完全锁住门。

图片门锁(door locking)评估示例演示

下面实验的目的是将 3 个视觉上相同的块堆叠成一个稳定的塔,其中的一个小方块明显比其他两块重,所以最佳策略是将它放在底部。

图片堆叠评估示例演示

为了检查算法的鲁棒性和通用性,该研究使用具有 9 个关节的 D'Claw 在真实机器人拧紧实验中对其进行测试。此任务的目的是将4-prong阀门顺时针旋转约 180° 进入拧紧状态(阀门底座上的白线)。

图片

作者介绍

本次获得CoRL 2022最佳论文奖的作者共有三位,分别是Kun Huang、Edward Hu、Dinesh Jayaraman 。

Dinesh Jayaraman为宾夕法尼亚大学GRASP实验室的助理教授,他领导着感知、行动和学习(PAL)研究小组,致力于计算机视觉、机器学习和机器人技术的交叉问题研究。

Kun Huang为宾夕法尼亚大学GRASP实验室硕士,在Dinesh Jayaraman教授的指导下研究强化学习。他在密歇根大学获得了计算机科学学士学位,在那里他与 Dmitry Berenson 教授一起研究机器人感知。Kun Huang本科毕业于上海交通大学,研究兴趣包括机器人与现实世界的应用。Kun Huang 在硕士期间曾在 Waymo 实习,毕业后将加入 Cruise 担任机器学习工程师。

图片

领英主页:https://www.linkedin.com/in/kun-huang-620034171/

Edward S. Hu 为宾夕法尼亚大学GRASP实验室的博士生,师从Dinesh Jayaraman教授。他的主要研究兴趣包括基于模型的强化学习等。Edward在南加州大学获得了计算机科学硕士和学士学位,在那里他与Joseph J. Lim教授一起研究机器人的强化和模仿学习。

最佳论文入围名单

此次会议共有3篇论文入围最佳论文奖项,除了最终得奖的论文以外,其他2篇分别是:

图片

  • 论文标题:Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations

  • 作者:Chenhao Li、Marin Vlastelica、Sebastian Blaes、Jonas Frey、Felix Grimminger、Georg Martius

  • 论文链接:https:///pdf/2206.11693.pdf

图片

  • 论文标题:Supercharging Imitation with Regularized Optimal Transport

  • 作者:Siddhant Haldar 、 Vaibhav Mathur、Denis Yarats、Lerrel Pinto

  • 论文链接:https:///pdf/2206.15469.pdf

最佳系统论文奖

获得本届大会最佳系统论文奖的是来自CMU、UC伯克利的一项研究。

图片

  • 论文标题:Legged Locomotion in Challenging Terrains using Egocentric Vision

  • 作者:Ananye Agarwal,Ashish Kumar,Jitendra Malik, Deepak Pathak

  • 论文链接:https:///pdf/2211.07638.pdf

论文摘要:动物能够利用视觉进行精确而敏捷的运动,而复制这种能力一直是机器人技术的一个长期目标。传统的方法是将这个问题分解为海拔测绘和落脚点规划阶段(foothold planning phase)。然而,海拔测绘很容易受到故障和大面积噪声的影响,需要专门的硬件而且在生物学上是不可行的。

在本文中,研究者提出了第一个能够穿越楼梯、路边、垫脚石和空隙的端到端运动系统,并在一个中等大小、使用单个正面的深度摄像头的四足机器人上展示了这一结果。由于机器人体积小,需要发现其他地方没有的专门的步态模式。摄像头需要掌握记住过去的信息的策略,以估计身后脚下的地形。

研究者在模拟环境中训练了机器人的策略。训练分为两个阶段:首先使用强化学习训练一个具有低计算成本的深度图像变体的策略,然后将其提炼为使用监督学习的深度的最终策略。

图片

最终的策略可迁移到现实世界,并能够在机器人有限的计算能力上实时运行。它可以穿越大量的地形,同时对诸如湿滑表面和岩石地形等干扰具有鲁棒性。

垫脚石和空隙

机器人能够跨过各种配置的吧台凳,并调整步长以跨过大间隙。由于后脚附近没有摄像头,机器人必须记住吧台凳的位置并在相应的位置放置后脚。

图片

楼梯和路边

该机器人能够爬上24厘米高、30厘米宽的楼梯。策略适用于各种照明条件下的不同楼梯和路边。在分布不均匀的楼梯,机器人最初会被卡住,但最终能够使用爬升行为跨过这些障碍。

图片

图片

非结构化地形

机器人可以穿越不属于其训练类别之一的非结构化地形,显示了系统的泛化能力。

图片

黑暗中的移动

深度相机使用红外光投射图案,即使在几乎没有环境光的情况下也能准确估计深度。

图片

鲁棒性

策略对大力量(从高处投掷 5 公斤重物)和湿滑表面(水倒在塑料布上)具有鲁棒性。

图片

作者介绍

这项研究共有四位作者。

Jitendra Malik现为UC伯克利电气工程和计算机科学系Arthur J. Chick教授,他的研究领域包括计算机视觉、人类视觉的计算建模、计算机图形学和生物图像分析等。

本次获奖研究的作者之一Ashish Kumar是他的博士生。

Deepak Pathak现为卡内基梅隆大学助理教授,他在加州大学伯克利分校获得博士学位,研究的主题包括机器学习、机器人和计算机视觉。

本次获奖研究的作者之一Ananye Agarwal是他的博士生。

此外,Deepak Pathak还有一项研究在本次大会最佳系统论文奖的入围名单之内。

图片

  • 论文标题:Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion

  • 作者:Zipeng Fu, Xuxin Cheng, Deepak Pathak

  • 论文链接:https:///abs/2210.10044

特别创新奖

这次大会还评选出了特别创新奖,这项研究由谷歌的多位研究者共同完成。

图片

  • 论文标题:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

作者:Brian Ichter 、 Anthony Brohan 、Michael Ahn 等

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多