Beyond Binary: Sim-to-Real Dexterous Manipulation with Physics-Grounded Contact Representation
作者: Jiahe Pan, Stelian Coros, Jitendra Malik, Toru Lin
分类: cs.RO, cs.AI, cs.LG
发布日期: 2026-05-27
备注: Project site: https://mpan31415.github.io/tactile_rep/
💡 一句话要点
提出基于物理的CoP触觉表示,实现灵巧操作的Sim-to-Real迁移
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: Sim-to-Real 灵巧操作 触觉感知 强化学习 压力中心 可微动力学
📋 核心要点
- 接触式操作任务中,真实数据难以获取,而Sim-to-Real强化学习受限于模拟-现实差距,触觉信息利用率低。
- 论文提出基于物理的压力中心(CoP)触觉表示,保留密集接触信息,增强Sim-to-Real迁移的鲁棒性。
- 在销钉插入和球平衡任务中,CoP策略在多指机械手上实现零样本迁移,性能优于其他基线方法。
📝 摘要(中文)
在接触丰富的操作任务中,真实世界数据收集困难是主要瓶颈。Sim-to-real强化学习提供了一种可扩展的替代方案,但模拟-现实差距阻碍了触觉等信息密集型模态的有效利用。现有的sim-to-real方法通常通过将触觉数据简化为粗糙的低维特征来缓解这种差距,牺牲了复杂操作所需的丰富性。本文提出了一种基于物理原理的有效触觉表示——压力中心(CoP),它保留了密集的接触信息,同时保持了sim-to-real迁移的鲁棒性。为了支持这种表示,我们提出了一种基于可微动力学的传感器校准方案,无需ground-truth力测量即可估计触觉单元的方向。我们在两个具有挑战性的盲操作任务:销钉插入和球平衡上评估了CoP。在这两个任务中,以CoP为条件的策略在多指手上实现了零样本sim-to-real迁移,并且优于粗糙的二元接触和原始触觉单元基线。对学习策略状态的分析进一步表明,以CoP为条件的策略将诸如物体质量之类的任务相关物理属性编码为控制的涌现副产品。
🔬 方法详解
问题定义:现有接触式操作任务中,真实数据的获取成本高昂,而Sim-to-Real强化学习方法在处理触觉信息时,由于模拟-现实差距,往往需要将高维触觉数据简化为低维特征,导致信息损失,限制了复杂操作的性能。因此,如何设计一种既能保留丰富触觉信息,又能适应Sim-to-Real迁移的触觉表示是亟待解决的问题。
核心思路:论文的核心思路是利用基于物理原理的压力中心(Center-of-Pressure, CoP)作为触觉信息的表示。CoP能够有效地概括接触力分布的中心位置,同时保留了接触力的方向和大小信息。这种表示方法既能提供足够的操作信息,又能降低数据的维度,从而提高Sim-to-Real迁移的鲁棒性。此外,论文还提出了一种基于可微动力学的传感器校准方案,用于估计触觉传感器的方向,进一步提升了CoP表示的准确性。
技术框架:整体框架包括三个主要部分:1) 触觉传感器数据采集;2) 基于可微动力学的传感器校准;3) 基于CoP表示的强化学习策略训练。首先,通过触觉传感器获取接触力信息。然后,利用可微动力学模型对传感器进行校准,估计传感器的方向。最后,将CoP作为强化学习策略的输入,训练智能体完成特定的操作任务。
关键创新:论文的关键创新在于提出了基于物理的CoP触觉表示,并结合可微动力学进行传感器校准。与传统的低维触觉特征相比,CoP能够保留更多的接触信息,从而支持更复杂的接触式操作。与需要ground-truth力测量的传感器校准方法相比,基于可微动力学的校准方法更加灵活,适用于实际应用。
关键设计:在传感器校准方面,论文使用可微动力学模型来模拟触觉传感器的运动,并通过最小化模拟结果与实际观测之间的差异来估计传感器的方向。在强化学习方面,论文使用Actor-Critic算法训练智能体,其中Actor网络用于生成动作,Critic网络用于评估动作的价值。CoP被用作Actor和Critic网络的输入,损失函数包括奖励函数和正则化项,用于鼓励智能体学习有效的操作策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于CoP的策略在销钉插入和球平衡两个任务上均实现了零样本Sim-to-Real迁移,显著优于基于二元接触和原始触觉单元的基线方法。例如,在销钉插入任务中,CoP策略的成功率达到80%以上,而二元接触策略的成功率仅为20%左右。此外,对学习策略状态的分析表明,CoP策略能够编码任务相关的物理属性,如物体质量,这表明CoP能够有效地提取和利用触觉信息。
🎯 应用场景
该研究成果可应用于各种需要精细操作的机器人任务,例如装配、医疗手术、以及在复杂环境中进行物体操作。通过提升机器人对触觉信息的利用能力,可以显著提高机器人的自主性和适应性,使其能够在未知或动态环境中完成更加复杂的任务。未来,该技术有望在工业自动化、医疗机器人、服务机器人等领域发挥重要作用。
📄 摘要(原文)
A primary bottleneck in contact-rich manipulation is the difficulty of collecting real-world data. Sim-to-real reinforcement learning offers a scalable alternative, but the simulation-reality gap prevents information-dense modalities like touch from being effectively used. Existing sim-to-real methods often mitigate this gap by simplifying tactile data into coarse low-dimensional features -- sacrificing the richness required for complex manipulation. In this work, we introduce Center-of-Pressure (CoP), an effective tactile representation grounded in physical principles that preserves dense contact information while maintaining robustness for sim-to-real transfer. To support this representation, we propose a sensor calibration scheme based on differentiable dynamics, enabling the estimation of taxel orientations without requiring ground-truth force measurements. We evaluate CoP on two blind, challenging contact-rich manipulation tasks: peg-in-hole insertion and ball balancing. Across both tasks, policies conditioned on CoP achieve zero-shot sim-to-real transfer on a multi-fingered hand, and outperform both coarse binary-contact and raw-taxel baselines. Analysis of learned policy states further suggests that CoP-conditioned policies encode task-relevant physical properties, such as object mass, as an emergent byproduct of control.