Master Micro Residual Correction with Adaptive Tactile Fusion and Force-Mixed Control for Contact-Rich Manipulation
作者: Xingting Li, Yifan Xie, Han Liu, Wei Hou, Guangyu Chen, Shoujie Li, Wenbo Ding
分类: cs.RO
发布日期: 2026-03-16
💡 一句话要点
提出M2-ResiPolicy,通过触觉自适应融合和力混合控制,提升接触式操作的微残差校正能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 接触式操作 残差控制 触觉融合 力混合控制 扩散策略
📋 核心要点
- 现有视觉模仿学习方法难以感知摩擦变化或初始滑动等关键交互信息,难以平衡全局任务连贯性和局部反应反馈。
- M2-ResiPolicy采用主-微残差控制架构,融合高层动作指导和低层校正,利用触觉信息自适应调整视觉和触觉权重。
- 实验表明,M2-ResiPolicy在易碎物体抓取和精密插入等任务中,显著优于现有方法,提升了操作的成功率和安全性。
📝 摘要(中文)
本文提出了一种名为M2-ResiPolicy的新型主-微残差控制架构,旨在解决机器人接触式和精细操作中由于复杂交互动力学和多时间尺度控制的竞争需求所带来的挑战。该架构结合了高层动作指导和低层校正。主指导策略(MGP)以10Hz运行,通过基于扩散的骨干网络生成时间上一致的动作块,并采用触觉强度驱动的自适应融合机制来动态调节视觉和触觉之间的感知权重。同时,高频(60Hz)微残差校正器(MRC)利用轻量级GRU基于TCP力矩反馈提供实时动作补偿。该策略进一步与力混合PBIC执行层集成,有效调节接触力以确保交互安全。在包括易碎物体抓取和精密插入在内的多个高要求任务中的实验表明,M2-ResiPolicy显著优于标准扩散策略(DP)和最先进的反应式扩散策略(RDP),在芯片抓取中实现了93%的无损成功率,并具有卓越的力调节稳定性。
🔬 方法详解
问题定义:机器人接触式操作,特别是精细操作,面临着复杂交互动力学和多时间尺度控制的挑战。现有方法,如视觉模仿学习,虽然擅长长时程规划,但缺乏对接触过程中细微变化的感知能力,例如摩擦力变化和初始滑动,导致操作失败或损坏物体。此外,如何在全局任务目标和局部实时反馈之间取得平衡也是一个难题。
核心思路:M2-ResiPolicy的核心思路是将控制策略分解为高层的主指导策略(MGP)和低层的微残差校正器(MRC)。MGP负责生成全局一致的动作序列,MRC则负责基于力/力矩反馈进行实时校正,弥补MGP的不足。通过触觉信息驱动的自适应融合机制,动态调整视觉和触觉信息的权重,使系统能够更好地感知和响应接触过程中的变化。
技术框架:M2-ResiPolicy包含三个主要模块:主指导策略(MGP)、微残差校正器(MRC)和力混合PBIC执行层。MGP以10Hz的频率运行,基于扩散模型生成动作序列,并使用触觉强度驱动的自适应融合机制来调节视觉和触觉信息的权重。MRC以60Hz的频率运行,基于TCP力矩反馈,使用GRU网络进行实时动作补偿。力混合PBIC执行层负责调节接触力,确保交互安全。
关键创新:M2-ResiPolicy的关键创新在于主-微残差控制架构和触觉自适应融合机制。主-微残差控制架构将控制策略分解为高低两层,分别负责全局规划和局部校正,提高了系统的鲁棒性和适应性。触觉自适应融合机制能够根据触觉信息的强度动态调整视觉和触觉信息的权重,使系统能够更好地感知和响应接触过程中的变化。
关键设计:MGP使用扩散模型作为骨干网络,生成时间上一致的动作序列。触觉自适应融合机制使用一个可学习的权重,根据触觉信息的强度动态调整视觉和触觉信息的权重。MRC使用轻量级的GRU网络,以减少计算负担,并提高响应速度。力混合PBIC执行层使用阻抗控制和力控制的混合策略,以实现精确的力控制和位置控制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,M2-ResiPolicy在芯片抓取任务中实现了93%的无损成功率,显著优于标准扩散策略(DP)和最先进的反应式扩散策略(RDP)。此外,M2-ResiPolicy在力调节稳定性方面也表现出卓越的性能,能够更精确地控制接触力,降低物体损坏的风险。
🎯 应用场景
M2-ResiPolicy在机器人精细操作领域具有广泛的应用前景,例如电子元件组装、医疗手术、精密仪器维护等。该方法能够提高机器人操作的精度、鲁棒性和安全性,降低操作难度,并有望实现更复杂、更精细的自动化操作。
📄 摘要(原文)
Robotic contact-rich and fine-grained manipulation remains a significant challenge due to complex interaction dynamics and the competing requirements of multi-timescale control. While current visual imitation learning methods excel at long-horizon planning, they often fail to perceive critical interaction cues like friction variations or incipient slip, and struggle to balance global task coherence with local reactive feedback. To address these challenges, we propose M2-ResiPolicy, a novel Master-Micro residual control architecture that synergizes high-level action guidance with low-level correction. The framework consists of a Master-Guidance Policy (MGP) operating at 10 Hz, which generates temporally consistent action chunks via a diffusion-based backbone and employs a tactile-intensity-driven adaptive fusion mechanism to dynamically modulate perceptual weights between vision and touch. Simultaneously, a high-frequency (60 Hz) Micro-Residual Corrector (MRC) utilizes a lightweight GRU to provide real-time action compensation based on TCP wrench feedback. This policy is further integrated with a force-mixed PBIC execution layer, effectively regulating contact forces to ensure interaction safety. Experiments across several demanding tasks including fragile object grasping and precision insertion, demonstrate that M2-ResiPolicy significantly outperforms standard Diffusion Policy (DP) and state-of-the-art Reactive Diffusion Policy (RDP), achieving a 93\% damage-free success rate in chip grasping and superior force regulation stability.