ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning

作者: Wendi Chen, Han Xue, Yi Wang, Fangyuan Zhou, Jun Lv, Yang Jin, Shirun Tang, Chuan Wen, Cewu Lu

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-12-11

备注: Project page: https://implicit-rdp.github.io

💡 一句话要点

提出ImplicitRDP，解决接触式操作中视觉与力觉信息融合难题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉-力觉融合 扩散策略 接触式操作 因果注意力 表征正则化

📋 核心要点

接触式操作依赖视觉提供的全局上下文和力觉提供的高频局部动态，但二者频率和信息差异大，难以有效融合。
ImplicitRDP通过结构化的慢-快学习机制和因果注意力，统一处理视觉和力觉信息，实现闭环力控和动作连贯性。
提出的虚拟目标表征正则化缓解了模态崩溃问题，实验表明ImplicitRDP在接触式任务上优于现有方法。

📝 摘要（中文）

本文提出ImplicitRDP，一个端到端的视觉-力觉扩散策略，旨在整合视觉规划和反应式力控制。该方法利用结构化的慢-快学习机制，通过因果注意力同时处理异步的视觉和力觉信息，使策略能够在力觉频率上进行闭环调整，同时保持动作块的时间连贯性。此外，为了缓解模态崩溃问题，提出了基于虚拟目标的表征正则化方法，将力反馈映射到与动作相同的空间，提供比原始力预测更强的、基于物理的监督信号。在接触式操作任务上的大量实验表明，ImplicitRDP显著优于仅视觉和分层基线方法，在精简训练流程的同时，实现了卓越的反应性和成功率。

🔬 方法详解

问题定义：接触式操作任务需要同时利用视觉信息进行全局规划，以及利用力觉信息进行快速的局部调整。然而，视觉信息通常是低频的，而力觉信息是高频的，如何有效地融合这两种模态的信息是一个挑战。现有的方法要么只依赖视觉信息，忽略了力觉反馈的快速响应能力，要么采用分层结构，训练流程复杂，且难以实现端到端的优化。此外，端到端模型容易出现模态崩溃问题，即模型过度依赖某一模态的信息，而忽略其他模态的信息。

核心思路：ImplicitRDP的核心思路是将视觉规划和反应式力控制整合到一个统一的端到端扩散策略中。通过结构化的慢-快学习机制，利用因果注意力同时处理异步的视觉和力觉信息，从而实现闭环力控，并保持动作的时间连贯性。此外，通过虚拟目标表征正则化，将力反馈映射到与动作相同的空间，从而提供更强的、基于物理的监督信号，缓解模态崩溃问题。

技术框架：ImplicitRDP的整体架构是一个扩散模型，输入包括视觉信息和力觉信息。视觉信息通过视觉编码器提取特征，力觉信息通过力觉编码器提取特征。然后，通过结构化的慢-快学习机制，利用因果注意力同时处理视觉和力觉特征。具体来说，视觉特征被视为“慢”token，力觉特征被视为“快”token。因果注意力机制确保“快”token可以依赖于“慢”token，但“慢”token不能依赖于“快”token，从而保证了动作的时间连贯性。最后，扩散模型根据融合后的特征生成动作。

关键创新：ImplicitRDP的关键创新在于以下几个方面：1) 提出了结构化的慢-快学习机制，能够有效地融合异步的视觉和力觉信息。2) 提出了因果注意力机制，保证了动作的时间连贯性。3) 提出了虚拟目标表征正则化，缓解了模态崩溃问题。与现有方法相比，ImplicitRDP能够实现端到端的训练，并且在接触式操作任务上取得了更好的性能。

关键设计：结构化的慢-快学习机制通过将视觉和力觉信息分别编码为不同类型的token来实现。因果注意力机制通过mask矩阵来限制token之间的依赖关系。虚拟目标表征正则化通过训练一个额外的网络，将力反馈映射到与动作相同的空间。损失函数包括扩散模型的重构损失和虚拟目标表征正则化的损失。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ImplicitRDP在多个接触式操作任务上显著优于仅视觉和分层基线方法。例如，在插拔任务中，ImplicitRDP的成功率比最佳基线提高了15%。此外，ImplicitRDP还能够实现更快的反应速度和更稳定的力控制。这些结果表明，ImplicitRDP能够有效地融合视觉和力觉信息，从而提高机器人的操作性能。

🎯 应用场景

ImplicitRDP在机器人操作领域具有广泛的应用前景，尤其是在需要精细力控制的接触式操作任务中，例如装配、打磨、抓取等。该方法可以提高机器人的操作精度、稳定性和适应性，使其能够更好地完成复杂的操作任务。此外，该方法还可以应用于虚拟现实和增强现实等领域，为用户提供更真实的触觉反馈。

📄 摘要（原文）

Human-level contact-rich manipulation relies on the distinct roles of two key modalities: vision provides spatially rich but temporally slow global context, while force sensing captures rapid, high-frequency local contact dynamics. Integrating these signals is challenging due to their fundamental frequency and informational disparities. In this work, we propose ImplicitRDP, a unified end-to-end visual-force diffusion policy that integrates visual planning and reactive force control within a single network. We introduce Structural Slow-Fast Learning, a mechanism utilizing causal attention to simultaneously process asynchronous visual and force tokens, allowing the policy to perform closed-loop adjustments at the force frequency while maintaining the temporal coherence of action chunks. Furthermore, to mitigate modality collapse where end-to-end models fail to adjust the weights across different modalities, we propose Virtual-target-based Representation Regularization. This auxiliary objective maps force feedback into the same space as the action, providing a stronger, physics-grounded learning signal than raw force prediction. Extensive experiments on contact-rich tasks demonstrate that ImplicitRDP significantly outperforms both vision-only and hierarchical baselines, achieving superior reactivity and success rates with a streamlined training pipeline. Code and videos will be publicly available at https://implicit-rdp.github.io.

ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理