In-Hand Manipulation of Articulated Tools with Dexterous Robot Hands with Sim-to-Real Transfer

📄 arXiv: 2509.23075v2 📥 PDF

作者: Soofiyan Atar, Daniel Huang, Florian Richter, Michael Yip

分类: cs.RO

发布日期: 2025-09-27 (更新: 2025-10-06)


💡 一句话要点

提出一种基于强化学习和触觉反馈的灵巧手工具操作方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧操作 铰接工具 强化学习 触觉反馈 模拟到真实迁移 机器人控制 交叉注意力

📋 核心要点

  1. 现有方法在处理铰接机制时,由于接触密集型动力学和关节现象建模不足,策略脆弱性较高。
  2. 提出一种结合强化学习和触觉反馈的控制策略,通过模拟训练和硬件演示学习,实现对铰接工具的灵巧操作。
  3. 实验证明,该方法能够实现从模拟到真实的鲁棒迁移,提高抗扰动能力,并推广到未见过的铰接工具。

📝 摘要(中文)

本文提出了一种利用灵巧机械手进行铰接工具手内操作的方法,并通过模拟到真实的迁移来解决接触密集型动态和关节现象建模不足的挑战。该方法使用关节较少且运动冗余度低于人手的机械手。控制器通过硬件演示学习的传感器驱动细化来增强模拟训练的基础策略,以本体感受和目标关节状态为条件,并通过基于交叉注意力的融合将整个手的触觉和力反馈与策略的内部动作意图融合。这种设计能够在线适应特定实例的关节属性,稳定接触交互,调节内力,并在扰动下协调耦合连杆运动。该方法在剪刀、钳子、微创手术工具和订书机等各种真实世界示例中得到验证,实现了从模拟到硬件的鲁棒迁移,提高了抗扰动能力,并推广到以前未见过的铰接工具,从而减少了对接触密集型环境中精确物理建模的依赖。

🔬 方法详解

问题定义:现有方法在机器人灵巧操作铰接工具时,面临着接触密集型动力学和关节现象(如摩擦、静摩擦、间隙等)建模困难的问题。这些未建模的因素导致策略在从仿真迁移到真实环境时表现不佳,鲁棒性不足。

核心思路:论文的核心思路是结合强化学习和传感器反馈,利用模拟训练得到一个基础策略,然后通过真实硬件演示学习一个传感器驱动的细化模块。该细化模块利用触觉和力反馈信息,对基础策略的动作进行调整,从而适应真实环境中未建模的动力学和关节特性。

技术框架:整体框架包含两个主要部分:1) 基于强化学习的模拟训练:在模拟环境中训练一个基础策略,该策略以目标关节状态和机械手的本体感受信息为输入,输出机械手的动作。2) 基于硬件演示学习的传感器驱动细化:收集真实硬件操作铰接工具的数据,学习一个细化模块,该模块以触觉、力反馈、目标关节状态和机械手的本体感受信息为输入,并利用交叉注意力机制融合触觉信息和基础策略的动作意图,输出对基础策略动作的调整量。最终的控制动作是基础策略的输出加上细化模块的调整量。

关键创新:该方法最重要的创新点在于利用传感器反馈(特别是触觉和力反馈)来弥补模拟环境和真实环境之间的差距。通过学习一个传感器驱动的细化模块,该方法能够在线适应特定实例的关节属性,稳定接触交互,调节内力,并在扰动下协调耦合连杆运动。与传统的依赖精确物理建模的方法相比,该方法更加鲁棒,泛化能力更强。

关键设计:细化模块的关键设计在于使用交叉注意力机制融合触觉信息和基础策略的动作意图。具体来说,触觉信息被编码成一个向量序列,基础策略的动作意图被编码成另一个向量序列,然后使用交叉注意力机制计算两个序列之间的相关性,从而得到一个加权的触觉信息表示。该加权表示被用于调整基础策略的动作。此外,损失函数的设计也至关重要,需要平衡目标关节状态的跟踪误差和机械手的动作幅度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多种铰接工具(包括剪刀、钳子、微创手术工具和订书机)上都取得了良好的效果。与仅使用模拟训练的基础策略相比,该方法能够显著提高从模拟到真实的迁移性能,并具有更强的抗扰动能力。此外,该方法还能够推广到以前未见过的铰接工具,表明其具有良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于需要灵巧操作铰接工具的领域,例如:外科手术机器人,可以辅助医生进行微创手术;工业自动化,可以用于装配、维修等任务;家庭服务机器人,可以帮助人们完成一些日常任务。该研究降低了对精确物理建模的依赖,提高了机器人的鲁棒性和泛化能力,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Reinforcement learning (RL) and sim-to-real transfer have advanced robotic manipulation of rigid objects. Yet, policies remain brittle when applied to articulated mechanisms due to contact-rich dynamics and under-modeled joint phenomena such as friction, stiction, backlash, and clearances. We address this challenge through dexterous in-hand manipulation of articulated tools using a robotic hand with reduced articulation and kinematic redundancy relative to the human hand. Our controller augments a simulation-trained base policy with a sensor-driven refinement learned from hardware demonstrations, conditioning on proprioception and target articulation states while fusing whole-hand tactile and force feedback with the policy's internal action intent via cross-attention-based integration. This design enables online adaptation to instance-specific articulation properties, stabilizes contact interactions, regulates internal forces, and coordinates coupled-link motion under perturbations. We validate our approach across a diversity of real-world examples, including scissors, pliers, minimally invasive surgical tools, and staplers. We achieve robust transfer from simulation to hardware, improved disturbance resilience, and generalization to previously unseen articulated tools, thereby reducing reliance on precise physical modeling in contact-rich settings.