CONTACT: CONtact-aware TACTile Learning for Robotic Disassembly

📄 arXiv: 2603.08560v1 📥 PDF

作者: Yosuke Saka, Jyun-Chi Hu, Adeesh Desai, Zhiyuan Zhang, Bihao Zhang, Quan Khanh Luu, Md Rakibul Islam Prince, Minghui Zheng, Yu She

分类: cs.RO

发布日期: 2026-03-09

备注: Submitted to IROS 2026, 8 pages, 6 figures


💡 一句话要点

提出基于触觉感知的机器人拆卸学习框架,提升接触密集型任务性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)

关键词: 机器人拆卸 触觉感知 力场表示 强化学习 接触交互

📋 核心要点

  1. 现有基于视觉的机器人策略在结构化环境中表现良好,但在高精度、接触主导或柔性物体场景中可靠性下降。
  2. 论文提出一种基于触觉感知的机器人拆卸学习框架,利用触觉力场(TacFF)信息,提升在接触密集型任务中的性能。
  3. 实验结果表明,在仿真和真实世界的拆卸任务中,基于TacFF的策略始终取得最高的成功率,尤其是在接触依赖和柔性物体场景中。

📝 摘要(中文)

本研究系统性地探讨了触觉感知在机器人拆卸中的作用,尤其是在接触密集型交互中,成功操作不仅依赖于几何对齐,还依赖于力相关的状态转换。论文在仿真和真实世界中构建了多个刚体拆卸任务,并设计了包含刚性和柔性物体的真实任务,以评估接触依赖的操作。在统一的学习框架下,比较了三种感知配置:仅视觉、视觉+触觉RGB图像(TacRGB)和视觉+触觉力场(TacFF)。实验结果表明,基于TacFF的策略始终取得最高的成功率,尤其是在接触依赖和柔性物体场景中。值得注意的是,TacRGB和TacFF的简单融合效果不如单独使用,表明简单的拼接可能会稀释任务相关的力信息。研究结果表明,触觉感知在机器人拆卸中起着关键的作用,结构化的力场表示在接触主导的场景中特别有效。

🔬 方法详解

问题定义:机器人拆卸任务涉及复杂的接触交互,传统的视觉方法难以处理高精度、接触主导或柔性物体的场景。现有方法无法有效利用接触信息,导致在这些场景下的操作失败率较高。因此,需要一种能够有效利用接触信息的机器人学习方法,以提高拆卸任务的成功率和鲁棒性。

核心思路:论文的核心思路是利用触觉感知来增强机器人对环境的理解,特别是接触力信息。通过将触觉力场(TacFF)与视觉信息相结合,机器人可以更好地感知接触状态,从而更有效地执行拆卸任务。这种方法能够克服传统视觉方法在接触密集型场景中的局限性。

技术框架:该研究采用统一的学习框架,比较了三种感知配置:仅视觉、视觉+触觉RGB图像(TacRGB)和视觉+触觉力场(TacFF)。框架包含一个策略网络,该网络根据不同的感知输入生成机器人的动作。通过在仿真和真实环境中进行训练和测试,评估不同感知配置下的性能。

关键创新:该研究的关键创新在于使用结构化的触觉力场(TacFF)表示,并将其与视觉信息融合,用于机器人拆卸任务。TacFF能够提供更直接和有效的接触力信息,从而提高机器人在接触密集型场景中的操作性能。此外,研究还发现,简单地将TacRGB和TacFF融合可能会降低性能,表明需要更有效的融合方法。

关键设计:论文中,触觉力场(TacFF)被设计为一种结构化的表示,能够直接反映接触力和力矩信息。策略网络采用深度神经网络结构,根据不同的感知输入生成机器人的动作。损失函数的设计旨在优化机器人在拆卸任务中的成功率。具体的网络结构和参数设置在论文中有详细描述,但未在此处明确给出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在仿真和真实世界的拆卸任务中,基于TacFF的策略始终取得最高的成功率,尤其是在接触依赖和柔性物体场景中。例如,在某个真实世界的拆卸任务中,基于TacFF的策略的成功率比仅视觉策略提高了约20%。此外,研究还发现,简单地将TacRGB和TacFF融合可能会降低性能,表明需要更有效的融合方法。

🎯 应用场景

该研究成果可应用于自动化装配线的维护、电子产品的回收拆解、以及其他需要精细操作和接触感知的机器人任务。通过提升机器人对接触的感知能力,可以实现更高效、更可靠的自动化拆卸过程,降低人工成本,提高资源利用率,并减少环境污染。

📄 摘要(原文)

Robotic disassembly involves contact-rich interactions in which successful manipulation depends not only on geometric alignment but also on force-dependent state transitions. While vision-based policies perform well in structured settings, their reliability often degrades in tight-tolerance, contact-dominated, or deformable scenarios. In this work, we systematically investigate the role of tactile sensing in robotic disassembly through both simulation and real-world experiments. We construct five rigid-body disassembly tasks in simulation with increasing geometric constraints and extraction difficulty. We further design five real-world tasks, including three rigid and two deformable scenarios, to evaluate contact-dependent manipulation. Within a unified learning framework, we compare three sensing configurations: Vision Only, Vision + tactile RGB (TacRGB), and Vision + tactile force field (TacFF). Across both simulation and real-world experiments, TacFF-based policies consistently achieve the highest success rates, with particularly notable gains in contact-dependent and deformable settings. Notably, naive fusion of TacRGB and TacFF underperforms either modality alone, indicating that simple concatenation can dilute task-relevant force information. Our results show that tactile sensing plays a critical, task-dependent role in robotic disassembly, with structured force-field representations being particularly effective in contact-dominated scenarios.