SI-Diff: A Framework for Learning Search and High-Precision Insertion with a Force-Domain Diffusion Policy

作者: Yibo Liu, Stanko Oparnica, Simon Shewchun-Jakaitis, Guoyi Fu, Jie Wang, Jun Yang, Anand Jagannathan, Tony Hong-Yau Lo

分类: cs.RO

发布日期: 2026-05-12

备注: 9 pages, 8 figures

💡 一句话要点

SI-Diff：力域扩散策略学习搜索与高精度插入，解决机器人装配中的位姿不确定性问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人装配 力域扩散策略 搜索与插入 模式调节 零样本迁移

📋 核心要点

机器人装配中，相对位姿的不确定性（如未对准和小间隙）是核心挑战，现有方法通常独立处理搜索和高精度插入。
SI-Diff框架通过力域扩散策略学习搜索和高精度插入，利用模式调节机制在单一框架下捕捉不同的动作行为。
实验结果表明，SI-Diff显著提升了未对准容差，并展现出对未见形状的强大零样本迁移能力。

📝 摘要（中文）

本文提出SI-Diff框架，通过力域扩散策略学习搜索和高精度插入，旨在解决机器人装配中由于相对位姿不确定性（如未对准和小间隙）带来的挑战。现有方法通常将搜索和高精度插入分开处理，因为它们涉及不同的动作模式。SI-Diff通过一种新的模式调节机制，使策略能够在单一框架下捕捉不同的动作行为，无需切换模型或权重。此外，还开发了一种新的搜索教师策略，可以生成多样化的轨迹。通过在教师策略提供的成功且高效的演示上进行训练，模型学习了从触觉和末端执行器速度观测到有效动作行为的映射。实验表明，与最先进的基线TacDiffusion相比，SI-Diff将x-y未对准的容差从2毫米扩展到5毫米，同时还展示了对未见形状的强大零样本迁移能力。

🔬 方法详解

问题定义：机器人装配任务，特别是像“孔中插销”这样的接触密集型任务，面临着由于零件之间相对位姿不确定性带来的挑战。现有方法通常将搜索（寻找插入位置）和高精度插入（精确插入）分开处理，导致系统复杂，难以适应不同场景。痛点在于缺乏一个能够统一处理搜索和高精度插入的通用模型。

核心思路：SI-Diff的核心思路是利用力域扩散策略，将搜索和高精度插入建模为一个连续的动作生成过程。通过引入模式调节机制，使单个策略网络能够根据不同的任务阶段（搜索或插入）生成不同的动作模式。这种方法避免了模型切换，提高了系统的灵活性和泛化能力。

技术框架：SI-Diff框架主要包含以下几个模块：1) 触觉和末端执行器速度观测模块，用于获取环境信息；2) 模式调节模块，用于区分搜索和插入阶段；3) 力域扩散策略网络，用于生成动作；4) 搜索教师策略，用于生成训练数据。整体流程是：首先，搜索教师策略生成多样化的轨迹作为训练数据；然后，SI-Diff模型在这些数据上进行训练，学习从观测到动作的映射；最后，训练好的模型可以用于实际的机器人装配任务。

关键创新：SI-Diff的关键创新在于以下几点：1) 提出了一个统一的框架，能够同时处理搜索和高精度插入；2) 引入了模式调节机制，使单个策略网络能够适应不同的任务阶段；3) 开发了一种新的搜索教师策略，能够生成多样化的轨迹，提高了模型的泛化能力。与现有方法的本质区别在于，SI-Diff不再需要手动切换模型或权重，而是通过学习的方式自动适应不同的任务阶段。

关键设计：SI-Diff的关键设计包括：1) 力域扩散策略网络：使用扩散模型生成连续的动作，能够更好地处理接触过程中的不确定性；2) 模式调节机制：通过将任务阶段（搜索或插入）作为输入，调节策略网络的输出，使其能够生成不同的动作模式；3) 搜索教师策略：采用随机策略生成多样化的轨迹，避免模型陷入局部最优。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SI-Diff框架显著提升了机器人装配的性能。与最先进的基线TacDiffusion相比，SI-Diff将x-y未对准的容差从2毫米扩展到5毫米，提升了150%。此外，SI-Diff还展示了对未见形状的强大零样本迁移能力，表明其具有良好的泛化性能。

🎯 应用场景

SI-Diff框架在机器人自动化装配领域具有广泛的应用前景，例如汽车制造、电子产品组装、航空航天等。它可以提高装配效率、降低人工成本，并增强机器人对环境变化的适应能力。未来，该技术有望应用于更复杂的装配任务，例如柔性物体的装配、微型零件的装配等。

📄 摘要（原文）

Contact-rich assembly is fundamental in robotics but poses significant challenges due to uncertainties in relative poses, such as misalignments and small clearances in peg-in-hole tasks. Existing approaches typically address search and high-precision insertion separately, because these tasks involve distinct action patterns. However, supporting both tasks within a single model, without switching models or weights, is desirable for intelligent assembly systems. In this work, we propose SI-Diff, a framework that learns both search and high-precision insertion through a force-domain diffusion policy. To this end, we introduce a new mode-conditioning mechanism that enables the policy to capture distinct action behaviors under a single framework. Moreover, we develop a new search teacher policy that can generate diverse trajectories. By training on successful and efficient demonstrations provided by the teacher policy, the model learns the mapping from tactile and end-effector velocity observations to effective action behaviors. We conduct thorough experiments to show that SI-Diff extends the tolerance to x-y misalignments from 2 mm to 5 mm compared to the state-of-the-art baseline, TacDiffusion, while also demonstrating strong zero-shot transferability to unseen shapes.

SI-Diff: A Framework for Learning Search and High-Precision Insertion with a Force-Domain Diffusion Policy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理