ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

📄 arXiv: 2603.09565v1 📥 PDF

作者: Minchi Ruan, LiangQing Zhou, Hongtong Li, Zongtao Wang, ZhaoMing Lu, Jianwei Zhang, Bin Fang

分类: cs.RO

发布日期: 2026-03-10


💡 一句话要点

提出ReTac-ACT,解决末端执行器遮挡下高精度装配中的视觉失效问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉触觉融合 模仿学习 高精度装配 Transformer 机器人操作 触觉重建 门控网络

📋 核心要点

  1. 高精度装配中,末端执行器遮挡导致视觉信息不足,现有方法难以实现亚毫米级的精确调整。
  2. ReTac-ACT通过双向交叉注意力融合视觉和触觉信息,并利用门控网络动态调整二者权重。
  3. 在NIST M1基准测试中,ReTac-ACT在0.1mm间隙下达到80%的成功率,显著优于其他方法。

📝 摘要(中文)

本文提出了一种名为ReTac-ACT(重建增强型触觉ACT)的视觉-触觉模仿学习策略,用于解决高精度装配中由于末端执行器和工件遮挡导致的视觉反馈失效问题。该方法通过三个协同机制实现:(i)双向交叉注意力,实现视觉和触觉特征的互增强;(ii)一个以本体感受为条件的门控网络,在视觉遮挡发生时动态提高对触觉的依赖;(iii)一个触觉重建目标,强制学习与操作相关的接触信息,而非通用的视觉纹理。在标准化的NIST装配任务板M1基准测试中,ReTac-ACT实现了90%的孔轴配合成功率,显著优于仅使用视觉的方法和通用基线方法,并在工业级0.1mm间隙下保持了80%的成功率。消融研究验证了每个架构组件的不可或缺性。ReTac-ACT代码库和一个包含各种间隙级别视觉和触觉特征的视觉-触觉演示数据集将被发布,以支持可重复的研究。

🔬 方法详解

问题定义:高精度装配任务,尤其是在“最后一毫米”区域,由于末端执行器和工件的遮挡,视觉信息变得不可靠,导致传统视觉方法失效。现有方法难以有效利用触觉信息,或者无法在视觉信息不足时动态调整对触觉的依赖。

核心思路:ReTac-ACT的核心思路是融合视觉和触觉信息,并根据视觉遮挡情况动态调整二者的权重。通过双向交叉注意力机制增强视觉和触觉特征,并利用本体感受信息调节门控网络,从而在视觉信息不足时更多地依赖触觉信息。

技术框架:ReTac-ACT的整体框架是一个视觉-触觉模仿学习策略。它包含以下主要模块:(1)视觉特征提取模块,从视觉图像中提取特征;(2)触觉特征提取模块,从触觉传感器数据中提取特征;(3)双向交叉注意力模块,用于视觉和触觉特征的互增强;(4)本体感受条件门控网络,用于动态调整视觉和触觉特征的权重;(5)策略网络,根据融合后的特征输出动作。

关键创新:ReTac-ACT的关键创新在于:(1)双向交叉注意力机制,实现了视觉和触觉特征的互增强,克服了传统融合方法中信息损失的问题;(2)本体感受条件门控网络,能够根据视觉遮挡情况动态调整视觉和触觉的权重,提高了策略的鲁棒性;(3)触觉重建目标,强制网络学习与操作相关的接触信息,而非通用的视觉纹理,提高了触觉信息的利用效率。

关键设计:双向交叉注意力模块采用Transformer结构,允许视觉和触觉特征相互关注。本体感受条件门控网络使用多层感知机(MLP),以本体感受信息作为输入,输出视觉和触觉特征的权重。触觉重建目标使用均方误差(MSE)损失函数,鼓励网络从融合后的特征中重建原始触觉数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReTac-ACT在NIST Assembly Task Board M1基准测试中取得了显著成果,孔轴配合成功率达到90%,显著优于仅使用视觉的方法和通用基线方法。在工业级0.1mm间隙下,ReTac-ACT仍能保持80%的成功率,表明其具有很强的实用性。

🎯 应用场景

ReTac-ACT可应用于各种高精度装配任务,尤其是在视觉遮挡严重的环境中,例如电子元件组装、医疗器械制造等。该方法能够提高装配的精度和鲁棒性,降低对环境光照和视觉清晰度的要求,具有重要的实际应用价值和潜力。

📄 摘要(原文)

Precision assembly requires sub-millimeter corrections in contact-rich "last-millimeter" regions where visual feedback fails due to occlusion from the end-effector and workpiece. We present ReTac-ACT (Reconstruction-enhanced Tactile ACT), a vision-tactile imitation learning policy that addresses this challenge through three synergistic mechanisms: (i) bidirectional cross-attention enabling reciprocal visuo-tactile feature enhancement before fusion, (ii) a proprioception-conditioned gating network that dynamically elevates tactile reliance when visual occlusion occurs, and (iii) a tactile reconstruction objective enforcing learning of manipulation-relevant contact information rather than generic visual textures. Evaluated on the standardized NIST Assembly Task Board M1 benchmark, ReTac-ACT achieves 90% peg-in-hole success, substantially outperforming vision-only and generalist baseline methods, and maintains 80% success at industrial-grade 0.1mm clearance. Ablation studies validate that each architectural component is indispensable. The ReTac-ACT codebase and a vision-tactile demonstration dataset covering various clearance levels with both visual and tactile features will be released to support reproducible research.