ArticuBot: Learning Universal Articulated Object Manipulation Policy via Large Scale Simulation

📄 arXiv: 2503.03045v2 📥 PDF

作者: Yufei Wang, Ziyu Wang, Mino Nakura, Pratik Bhowal, Chia-Liang Kuo, Yi-Ting Chen, Zackory Erickson, David Held

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-03-04 (更新: 2025-05-01)

备注: Accepted at RSS 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ArticuBot:通过大规模仿真学习通用铰接物体操作策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 铰接物体操作 机器人学习 模仿学习 Sim2Real 分层策略

📋 核心要点

  1. 铰接物体操作因其几何、尺寸和铰接方式的多样性而极具挑战,现有方法难以有效泛化。
  2. ArticuBot通过大规模仿真生成演示数据,并利用分层策略学习和加权位移模型实现策略泛化。
  3. 实验表明,ArticuBot策略能够零样本迁移到不同机器人平台和真实场景,成功操作未见过的铰接物体。

📝 摘要(中文)

本文提出了ArticuBot,一个单一的学习策略,使机器人系统能够在真实世界中打开各种未见过的铰接物体。由于此类物体的几何形状、尺寸和铰接类型的巨大差异,这项任务对机器人来说一直具有挑战性。ArticuBot系统包含三个部分:在基于物理的仿真中生成大量演示数据,通过模仿学习将所有生成的演示数据提炼成基于点云的神经策略,以及执行零样本的sim2real迁移到真实的机器人系统。利用基于采样的抓取和运动规划,我们的演示泛化流程快速有效,在322个训练铰接物体上生成了总共42.3k个演示。对于策略学习,我们提出了一种新颖的分层策略表示,其中高层策略学习末端执行器的子目标,低层策略学习如何根据预测的目标移动末端执行器。我们证明,与非分层版本相比,这种分层方法实现了更好的物体级别泛化。我们进一步提出了一种新颖的加权位移模型,用于将高层策略的预测锚定到场景现有的3D结构中,优于其他策略表示。我们展示了我们学习的策略可以零样本迁移到三种不同的真实机器人设置:两个不同实验室的固定桌面Franka机械臂,以及移动底座上的X-Arm,在两个实验室、真实的休息室和厨房中打开多个未见过的铰接物体。

🔬 方法详解

问题定义:铰接物体操作任务旨在使机器人能够打开各种未见过的铰接物体,例如抽屉、柜门、烤箱等。现有方法的痛点在于难以处理铰接物体的多样性,泛化能力差,需要大量真实数据训练,且难以适应不同的机器人平台和环境。

核心思路:ArticuBot的核心思路是通过大规模仿真生成多样化的训练数据,并利用模仿学习训练一个通用的操作策略。该策略采用分层结构,高层策略负责预测末端执行器的子目标,低层策略负责根据子目标控制末端执行器的运动。此外,使用加权位移模型将高层策略的预测锚定到场景的3D结构中,提高策略的鲁棒性。

技术框架:ArticuBot系统包含三个主要模块:1) 演示数据生成模块:利用基于采样的抓取和运动规划算法,在仿真环境中生成大量铰接物体操作的演示数据。2) 策略学习模块:使用模仿学习训练一个分层策略,该策略由高层策略和低层策略组成。3) Sim2Real迁移模块:将训练好的策略零样本迁移到真实的机器人系统,无需额外的真实数据训练。

关键创新:ArticuBot的关键创新在于:1) 大规模仿真数据生成:通过高效的仿真数据生成流程,获得了大量多样化的训练数据,提高了策略的泛化能力。2) 分层策略表示:将策略分解为高层子目标预测和低层运动控制,简化了策略学习的难度,提高了策略的鲁棒性。3) 加权位移模型:将高层策略的预测锚定到场景的3D结构中,提高了策略的准确性和稳定性。

关键设计:在高层策略中,使用了加权位移模型,该模型根据场景点云的几何信息,对不同的位移向量进行加权,从而选择最合适的子目标。在低层策略中,使用了神经网络来学习末端执行器的运动控制策略。损失函数包括模仿学习损失和正则化损失,用于提高策略的稳定性和泛化能力。网络结构使用了PointNet++来处理点云数据,并使用MLP来预测子目标和运动控制指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ArticuBot策略在三个不同的真实机器人设置中进行了测试,包括两个实验室的固定桌面Franka机械臂和一个移动底座上的X-Arm。实验结果表明,该策略能够零样本迁移到这些机器人平台,并成功打开多个未见过的铰接物体。与非分层策略相比,分层策略在物体级别泛化方面取得了显著的提升。

🎯 应用场景

ArticuBot技术可应用于各种需要操作铰接物体的场景,例如智能家居、自动化厨房、仓库机器人等。该技术可以使机器人能够自主地打开抽屉、柜门、冰箱等,从而完成各种复杂的任务,提高工作效率和生活质量。未来,该技术还可以扩展到其他类型的物体操作任务,例如抓取、放置、组装等。

📄 摘要(原文)

This paper presents ArticuBot, in which a single learned policy enables a robotics system to open diverse categories of unseen articulated objects in the real world. This task has long been challenging for robotics due to the large variations in the geometry, size, and articulation types of such objects. Our system, Articubot, consists of three parts: generating a large number of demonstrations in physics-based simulation, distilling all generated demonstrations into a point cloud-based neural policy via imitation learning, and performing zero-shot sim2real transfer to real robotics systems. Utilizing sampling-based grasping and motion planning, our demonstration generalization pipeline is fast and effective, generating a total of 42.3k demonstrations over 322 training articulated objects. For policy learning, we propose a novel hierarchical policy representation, in which the high-level policy learns the sub-goal for the end-effector, and the low-level policy learns how to move the end-effector conditioned on the predicted goal. We demonstrate that this hierarchical approach achieves much better object-level generalization compared to the non-hierarchical version. We further propose a novel weighted displacement model for the high-level policy that grounds the prediction into the existing 3D structure of the scene, outperforming alternative policy representations. We show that our learned policy can zero-shot transfer to three different real robot settings: a fixed table-top Franka arm across two different labs, and an X-Arm on a mobile base, opening multiple unseen articulated objects across two labs, real lounges, and kitchens. Videos and code can be found on our project website: https://articubot.github.io/.