SI-Diff: A Framework for Learning Search and High-Precision Insertion with a Force-Domain Diffusion Policy

📄 arXiv: 2605.12247v1 📥 PDF

作者: Yibo Liu, Stanko Oparnica, Simon Shewchun-Jakaitis, Guoyi Fu, Jie Wang, Jun Yang, Anand Jagannathan, Tony Hong-Yau Lo

分类: cs.RO

发布日期: 2026-05-12

备注: 9 pages, 8 figures


💡 一句话要点

SI-Diff:力域扩散策略学习搜索与高精度插入,解决机器人装配中的位姿不确定性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人装配 力域扩散策略 搜索与插入 模式调节 零样本迁移

📋 核心要点

  1. 机器人装配中,相对位姿的不确定性(如未对准和小间隙)是核心挑战,现有方法通常独立处理搜索和高精度插入。
  2. SI-Diff框架通过力域扩散策略学习搜索和高精度插入,利用模式调节机制在单一框架下捕捉不同的动作行为。
  3. 实验结果表明,SI-Diff显著提升了未对准容差,并展现出对未见形状的强大零样本迁移能力。

📝 摘要(中文)

本文提出SI-Diff框架,通过力域扩散策略学习搜索和高精度插入,旨在解决机器人装配中由于相对位姿不确定性(如未对准和小间隙)带来的挑战。现有方法通常将搜索和高精度插入分开处理,因为它们涉及不同的动作模式。SI-Diff通过一种新的模式调节机制,使策略能够在单一框架下捕捉不同的动作行为,无需切换模型或权重。此外,还开发了一种新的搜索教师策略,可以生成多样化的轨迹。通过在教师策略提供的成功且高效的演示上进行训练,模型学习了从触觉和末端执行器速度观测到有效动作行为的映射。实验表明,与最先进的基线TacDiffusion相比,SI-Diff将x-y未对准的容差从2毫米扩展到5毫米,同时还展示了对未见形状的强大零样本迁移能力。

🔬 方法详解

问题定义:机器人装配任务,特别是像“孔中插销”这样的接触密集型任务,面临着由于零件之间相对位姿不确定性带来的挑战。现有方法通常将搜索(寻找插入位置)和高精度插入(精确插入)分开处理,导致系统复杂,难以适应不同场景。痛点在于缺乏一个能够统一处理搜索和高精度插入的通用模型。

核心思路:SI-Diff的核心思路是利用力域扩散策略,将搜索和高精度插入建模为一个连续的动作生成过程。通过引入模式调节机制,使单个策略网络能够根据不同的任务阶段(搜索或插入)生成不同的动作模式。这种方法避免了模型切换,提高了系统的灵活性和泛化能力。

技术框架:SI-Diff框架主要包含以下几个模块:1) 触觉和末端执行器速度观测模块,用于获取环境信息;2) 模式调节模块,用于区分搜索和插入阶段;3) 力域扩散策略网络,用于生成动作;4) 搜索教师策略,用于生成训练数据。整体流程是:首先,搜索教师策略生成多样化的轨迹作为训练数据;然后,SI-Diff模型在这些数据上进行训练,学习从观测到动作的映射;最后,训练好的模型可以用于实际的机器人装配任务。

关键创新:SI-Diff的关键创新在于以下几点:1) 提出了一个统一的框架,能够同时处理搜索和高精度插入;2) 引入了模式调节机制,使单个策略网络能够适应不同的任务阶段;3) 开发了一种新的搜索教师策略,能够生成多样化的轨迹,提高了模型的泛化能力。与现有方法的本质区别在于,SI-Diff不再需要手动切换模型或权重,而是通过学习的方式自动适应不同的任务阶段。

关键设计:SI-Diff的关键设计包括:1) 力域扩散策略网络:使用扩散模型生成连续的动作,能够更好地处理接触过程中的不确定性;2) 模式调节机制:通过将任务阶段(搜索或插入)作为输入,调节策略网络的输出,使其能够生成不同的动作模式;3) 搜索教师策略:采用随机策略生成多样化的轨迹,避免模型陷入局部最优。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SI-Diff框架显著提升了机器人装配的性能。与最先进的基线TacDiffusion相比,SI-Diff将x-y未对准的容差从2毫米扩展到5毫米,提升了150%。此外,SI-Diff还展示了对未见形状的强大零样本迁移能力,表明其具有良好的泛化性能。

🎯 应用场景

SI-Diff框架在机器人自动化装配领域具有广泛的应用前景,例如汽车制造、电子产品组装、航空航天等。它可以提高装配效率、降低人工成本,并增强机器人对环境变化的适应能力。未来,该技术有望应用于更复杂的装配任务,例如柔性物体的装配、微型零件的装配等。

📄 摘要(原文)

Contact-rich assembly is fundamental in robotics but poses significant challenges due to uncertainties in relative poses, such as misalignments and small clearances in peg-in-hole tasks. Existing approaches typically address search and high-precision insertion separately, because these tasks involve distinct action patterns. However, supporting both tasks within a single model, without switching models or weights, is desirable for intelligent assembly systems. In this work, we propose SI-Diff, a framework that learns both search and high-precision insertion through a force-domain diffusion policy. To this end, we introduce a new mode-conditioning mechanism that enables the policy to capture distinct action behaviors under a single framework. Moreover, we develop a new search teacher policy that can generate diverse trajectories. By training on successful and efficient demonstrations provided by the teacher policy, the model learns the mapping from tactile and end-effector velocity observations to effective action behaviors. We conduct thorough experiments to show that SI-Diff extends the tolerance to x-y misalignments from 2 mm to 5 mm compared to the state-of-the-art baseline, TacDiffusion, while also demonstrating strong zero-shot transferability to unseen shapes.