Visual-Tactile Peg-in-Hole Assembly Learning from Peg-out-of-Hole Disassembly

作者: Yongqiang Zhao, Xuyang Zhang, Zhuo Chen, Matteo Leonetti, Emmanouil Spyrakos-Papastavridis, Shan Luo

分类: cs.RO

发布日期: 2026-04-22

期刊: IEEE Robotics and Automation Letters, vol. 11, no. 6, pp. 6712-6719, June 2026

DOI: 10.1109/LRA.2026.3679227

💡 一句话要点

提出一种视觉-触觉融合的PiH学习框架，利用PooH逆向任务提升效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 孔轴配合 机器人操作 强化学习 视觉触觉融合 逆向学习

📋 核心要点

孔轴配合（PiH）任务是机器人操作中的一个基本但具有挑战性的任务，现有强化学习方法需要大量的探索。
该论文提出利用孔轴分离（PooH）任务的经验来辅助PiH任务的学习，PooH任务更容易数据采集。
实验结果表明，该方法在PiH任务上取得了显著的成功率提升，尤其是在未见过的物体上。

📝 摘要（中文）

本文提出了一种用于孔轴配合（PiH）任务的视觉-触觉技能学习框架，该框架利用其逆任务，即孔轴分离（PooH）来促进PiH的学习。相对于PiH，PooH本质上更容易，因为它只需要克服现有的摩擦力，而不需要精确的对齐，从而使数据收集更有效率。为此，我们将PooH和PiH都表述为具有共享视觉-触觉观测空间的部分可观测马尔可夫决策过程（POMDP）。首先训练视觉-触觉PooH策略；其轨迹（包含运动学、视觉和触觉信息）经过时间反转和动作随机化处理，为PiH提供专家数据。在策略学习中，视觉感知有助于轴-孔接近，而触觉测量则补偿轴-孔未对准。在不同的轴-孔几何形状上的实验表明，视觉-触觉策略比其单模态对应策略实现了低6.4%的接触力，并且我们的框架在已见物体上实现了87.5%的平均成功率，在未见物体上实现了77.1%的平均成功率，优于从头开始训练PiH策略的直接强化学习方法，成功率提高了18.1%。

🔬 方法详解

问题定义：论文旨在解决机器人孔轴配合（PiH）任务中，强化学习方法需要大量探索的问题。现有方法通常需要从零开始学习PiH策略，效率低下，且泛化能力有限。特别是在处理不同几何形状的轴孔时，需要重新训练模型。

核心思路：论文的核心思路是利用孔轴分离（PooH）任务的经验来辅助PiH任务的学习。PooH任务相对于PiH任务更容易，因为它只需要克服摩擦力，而不需要精确对齐。通过学习PooH策略，并将其经验迁移到PiH任务中，可以显著减少PiH任务所需的探索量。

技术框架：整体框架包含两个主要阶段：PooH策略学习和PiH策略学习。首先，将PooH和PiH任务建模为共享视觉-触觉观测空间的POMDP。然后，训练一个视觉-触觉PooH策略。最后，将PooH策略的轨迹进行时间反转和动作随机化处理，作为PiH策略学习的专家数据。PiH策略的学习采用强化学习方法，并结合视觉和触觉信息。

关键创新：论文的关键创新在于利用逆向任务（PooH）来辅助正向任务（PiH）的学习。这种方法可以有效地利用PooH任务的简单性，从而减少PiH任务所需的探索量。此外，论文还提出了一种视觉-触觉融合的策略学习方法，可以有效地处理PiH任务中的不确定性。

关键设计：论文的关键设计包括：1) 将PooH和PiH任务建模为共享观测空间的POMDP；2) 利用时间反转和动作随机化处理PooH轨迹，生成PiH的专家数据；3) 采用视觉和触觉信息融合的策略学习方法。具体的网络结构和损失函数等细节未在摘要中详细描述，属于未知信息。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，该方法在PiH任务上取得了显著的成功率提升。在已见物体上实现了87.5%的平均成功率，在未见物体上实现了77.1%的平均成功率，优于从头开始训练PiH策略的直接强化学习方法，成功率提高了18.1%。此外，视觉-触觉策略比其单模态对应策略实现了低6.4%的接触力。

🎯 应用场景

该研究成果可应用于各种需要精确装配的机器人操作任务，例如电子元件组装、汽车零部件装配等。通过利用逆向任务的经验，可以显著提高机器人装配的效率和鲁棒性，降低对环境和传感器的要求，具有重要的实际应用价值和潜在的商业前景。

📄 摘要（原文）

Peg-in-hole (PiH) assembly is a fundamental yet challenging robotic manipulation task. While reinforcement learning (RL) has shown promise in tackling such tasks, it requires extensive exploration. In this paper, we propose a novel visual-tactile skill learning framework for the PiH task that leverages its inverse task, i.e., peg-out-of-hole (PooH) disassembly, to facilitate PiH learning. Compared to PiH, PooH is inherently easier as it only needs to overcome existing friction without precise alignment, making data collection more efficient. To this end, we formulate both PooH and PiH as Partially Observable Markov Decision Processes (POMDPs) in a unified environment with shared visual-tactile observation space. A visual-tactile PooH policy is first trained; its trajectories, containing kinematic, visual and tactile information, are temporally reversed and action-randomized to provide expert data for PiH. In the policy learning, visual sensing facilitates the peg-hole approach, while tactile measurements compensate for peg-hole misalignment. Experiments across diverse peg-hole geometries show that the visual-tactile policy attains 6.4% lower contact forces than its single-modality counterparts, and that our framework achieves average success rates of 87.5% on seen objects and 77.1% on unseen objects, outperforming direct RL methods that train PiH policies from scratch by 18.1% in success rate. Demos, code, and datasets are available at https://sites.google.com/view/pooh2pih.