ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning

作者: Wendi Chen, Han Xue, Yi Wang, Fangyuan Zhou, Jun Lv, Yang Jin, Shirun Tang, Chuan Wen, Cewu Lu

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-12-11

备注: Project page: https://implicit-rdp.github.io

💡 一句话要点

提出ImplicitRDP，解决接触丰富操作中视觉与力觉融合难题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 视觉-力觉融合 扩散模型 端到端学习 接触控制

📋 核心要点

接触操作依赖视觉和力觉，但二者在频率和信息上有差异，如何有效融合是挑战。
ImplicitRDP利用结构性慢-快学习处理异步视觉和力觉信息，并用虚拟目标正则化避免模态崩溃。
实验表明，ImplicitRDP在接触任务上显著优于现有方法，提升了反应性和成功率。

📝 摘要（中文）

本文提出ImplicitRDP，一个统一的端到端视觉-力觉扩散策略，它在单个网络中集成了视觉规划和反应式力控制。我们引入了结构性慢-快学习机制，利用因果注意力同时处理异步的视觉和力觉tokens，使策略能够在力觉频率下进行闭环调整，同时保持动作块的时间连贯性。此外，为了缓解端到端模型中不同模态权重调整失败的模态崩溃问题，我们提出了基于虚拟目标的表征正则化方法。这个辅助目标将力反馈映射到与动作相同的空间，提供了比原始力预测更强、更基于物理的学习信号。在接触丰富任务上的大量实验表明，ImplicitRDP显著优于仅视觉和分层基线，以简化的训练流程实现了卓越的反应性和成功率。

🔬 方法详解

问题定义：在接触丰富的操作任务中，如何有效地融合视觉和力觉信息是一个关键问题。视觉信息提供全局的空间上下文，但更新频率较低；力觉信息反映局部接触动态，更新频率高。现有方法要么只依赖视觉，忽略了重要的力觉反馈，要么采用分层结构，训练流程复杂且难以优化不同模态之间的交互。端到端模型容易出现模态崩溃，即模型无法有效地调整不同模态的权重，导致性能下降。

核心思路：ImplicitRDP的核心思路是将视觉规划和反应式力控制集成到一个统一的端到端扩散策略中。通过结构性慢-快学习机制，模型可以同时处理异步的视觉和力觉tokens，从而在力觉频率下进行闭环调整，并保持动作的时间连贯性。此外，通过虚拟目标正则化，将力反馈映射到与动作相同的空间，提供更强的、基于物理的学习信号，缓解模态崩溃问题。

技术框架：ImplicitRDP的整体框架是一个端到端的扩散模型。该模型接收视觉输入和力觉输入，通过结构性慢-快学习模块进行融合，然后生成动作。结构性慢-快学习模块使用因果注意力机制，分别处理视觉tokens（慢速）和力觉tokens（快速），并允许它们之间进行交互。模型还包含一个虚拟目标正则化模块，该模块将力反馈映射到动作空间，并将其作为辅助损失函数来训练模型。

关键创新：ImplicitRDP的关键创新在于以下几点：1) 提出了结构性慢-快学习机制，能够有效处理异步的视觉和力觉信息。2) 提出了虚拟目标正则化方法，缓解了端到端模型中的模态崩溃问题。3) 将视觉规划和反应式力控制集成到一个统一的端到端框架中，简化了训练流程。与现有方法相比，ImplicitRDP能够更好地利用视觉和力觉信息，实现更高效、更鲁棒的接触操作。

关键设计：结构性慢-快学习模块使用因果注意力机制，确保视觉信息在时间上保持连贯性，并允许力觉信息对视觉信息进行快速调整。虚拟目标正则化模块使用一个小型神经网络将力反馈映射到动作空间。损失函数包括扩散模型的标准损失函数和虚拟目标正则化损失函数。扩散模型的采样步数和虚拟目标正则化损失函数的权重是重要的超参数，需要根据具体任务进行调整。

📊 实验亮点

实验结果表明，ImplicitRDP在多个接触丰富任务上显著优于基线方法。例如，在插拔任务中，ImplicitRDP的成功率比仅视觉的基线方法提高了20%以上，比分层基线方法提高了10%以上。此外，ImplicitRDP还表现出更强的鲁棒性和泛化能力，能够在不同的环境和物体上实现稳定的操作。

🎯 应用场景

ImplicitRDP在机器人操作领域具有广泛的应用前景，例如装配、抓取、操作工具等需要精细接触控制的任务。该研究成果可以应用于工业自动化、医疗机器人、家庭服务机器人等领域，提高机器人的操作能力和智能化水平，使其能够更好地适应复杂和动态的环境。

📄 摘要（原文）

Human-level contact-rich manipulation relies on the distinct roles of two key modalities: vision provides spatially rich but temporally slow global context, while force sensing captures rapid, high-frequency local contact dynamics. Integrating these signals is challenging due to their fundamental frequency and informational disparities. In this work, we propose ImplicitRDP, a unified end-to-end visual-force diffusion policy that integrates visual planning and reactive force control within a single network. We introduce Structural Slow-Fast Learning, a mechanism utilizing causal attention to simultaneously process asynchronous visual and force tokens, allowing the policy to perform closed-loop adjustments at the force frequency while maintaining the temporal coherence of action chunks. Furthermore, to mitigate modality collapse where end-to-end models fail to adjust the weights across different modalities, we propose Virtual-target-based Representation Regularization. This auxiliary objective maps force feedback into the same space as the action, providing a stronger, physics-grounded learning signal than raw force prediction. Extensive experiments on contact-rich tasks demonstrate that ImplicitRDP significantly outperforms both vision-only and hierarchical baselines, achieving superior reactivity and success rates with a streamlined training pipeline. Code and videos will be publicly available at https://implicit-rdp.github.io.

ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册