Watch Less, Feel More: Sim-to-Real RL for Generalizable Articulated Object Manipulation via Motion Adaptation and Impedance Control
作者: Tan-Dzung Do, Nandiraju Gireesh, Jilong Wang, He Wang
分类: cs.RO, cs.AI, cs.LG
发布日期: 2025-02-20
💡 一句话要点
提出基于运动自适应和阻抗控制的Sim-to-Real强化学习方法,用于通用铰接物体操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)
关键词: 铰接物体操作 强化学习 Sim-to-Real 运动自适应 阻抗控制 机器人控制 泛化能力
📋 核心要点
- 铰接物体操作因其动态环境特性,相较于刚性物体操作更具挑战性,现有方法泛化性不足。
- 该论文提出一种基于强化学习的流程,结合运动自适应和阻抗控制,利用历史观测信息提升泛化能力。
- 实验表明,该方法在真实世界中对未见过的铰接物体操作任务取得了84%的成功率,显著提升了性能。
📝 摘要(中文)
本文提出了一种新颖的基于强化学习的流程,该流程配备了可变阻抗控制和运动自适应,利用观察历史来实现通用铰接物体操作,重点关注零样本Sim-to-Real迁移期间的平滑和灵巧运动。为了缓解Sim-to-Real差距,我们的流程通过不直接将视觉数据特征(RGBD/点云)作为策略输入,而是首先通过现成的模块提取有用的低维数据,从而减少了对视觉的依赖。此外,通过推断物体运动及其内在属性,以及在模拟和真实世界中使用阻抗控制,我们减少了Sim-to-Real差距。此外,我们开发了一个精心设计的训练环境,具有良好的随机化和专门的奖励系统(任务感知和运动感知),从而实现了多阶段、端到端的操作,而无需启发式运动规划。据我们所知,通过对各种未见物体的广泛实验,我们的策略首次在真实世界中报告了84%的成功率。
🔬 方法详解
问题定义:铰接物体操作任务的难点在于其自身结构的动态性,导致传统方法难以泛化到新的物体上。现有方法通常依赖大量的视觉信息,容易受到Sim-to-Real差距的影响,并且缺乏对物体运动属性的有效建模。
核心思路:该论文的核心思路是通过运动自适应和阻抗控制来提高策略的泛化能力和鲁棒性。运动自适应利用历史观测信息来推断物体的运动状态和内在属性,从而减少对视觉信息的依赖。阻抗控制则允许机器人与环境进行柔顺的交互,降低了对精确模型的需求。
技术框架:整体框架包含以下几个主要模块:1)状态表示模块:从历史观测中提取低维状态信息,包括关节角度、末端执行器位置等。2)运动自适应模块:利用循环神经网络(RNN)等模型,根据历史状态信息预测物体的运动状态和内在属性。3)强化学习策略:基于状态表示和运动自适应模块的输出,学习控制机器人的动作。4)阻抗控制器:根据强化学习策略的输出,控制机器人的阻抗参数,实现柔顺的交互。
关键创新:该论文的关键创新在于将运动自适应和阻抗控制相结合,用于铰接物体操作任务。运动自适应模块能够有效地建模物体的运动状态,减少对视觉信息的依赖,从而提高策略的泛化能力。阻抗控制则允许机器人与环境进行柔顺的交互,降低了对精确模型的需求,从而提高策略的鲁棒性。
关键设计:在训练过程中,采用了大量的随机化技术,包括物体形状、质量、摩擦系数等。此外,还设计了一个专门的奖励函数,包括任务奖励和运动奖励。任务奖励鼓励机器人完成操作任务,运动奖励则鼓励机器人产生平滑的运动轨迹。阻抗控制器的参数(如刚度、阻尼)也通过强化学习进行优化。
📊 实验亮点
该论文提出的方法在真实世界中对各种未见过的铰接物体操作任务取得了84%的成功率。这一结果显著优于现有的方法,表明该方法具有很强的泛化能力和鲁棒性。此外,该方法不需要大量的视觉信息,降低了对传感器精度的要求。
🎯 应用场景
该研究成果可应用于各种需要操作铰接物体的场景,例如智能家居中的家具组装、工业生产线上的装配任务、医疗机器人辅助手术等。通过提高机器人操作铰接物体的能力,可以实现更高效、更灵活的自动化生产和生活。
📄 摘要(原文)
Articulated object manipulation poses a unique challenge compared to rigid object manipulation as the object itself represents a dynamic environment. In this work, we present a novel RL-based pipeline equipped with variable impedance control and motion adaptation leveraging observation history for generalizable articulated object manipulation, focusing on smooth and dexterous motion during zero-shot sim-to-real transfer. To mitigate the sim-to-real gap, our pipeline diminishes reliance on vision by not leveraging the vision data feature (RGBD/pointcloud) directly as policy input but rather extracting useful low-dimensional data first via off-the-shelf modules. Additionally, we experience less sim-to-real gap by inferring object motion and its intrinsic properties via observation history as well as utilizing impedance control both in the simulation and in the real world. Furthermore, we develop a well-designed training setting with great randomization and a specialized reward system (task-aware and motion-aware) that enables multi-staged, end-to-end manipulation without heuristic motion planning. To the best of our knowledge, our policy is the first to report 84\% success rate in the real world via extensive experiments with various unseen objects.