PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation
作者: Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu
分类: cs.RO
发布日期: 2026-03-09
💡 一句话要点
PhaForce:面向接触式操作,基于相位调度的视觉-力觉策略学习框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 接触式操作 视觉-力觉融合 相位调度 机器人学习 扩散模型
📋 核心要点
- 现有接触式操作方法难以兼顾视觉语义理解和力觉闭环控制,通常存在控制频率低、力觉信息利用不足等问题。
- PhaForce提出一种相位调度的视觉-力觉策略,通过接触感知相位预测、慢速扩散规划和快速残差校正三个模块协同工作。
- 实验结果表明,PhaForce在接触式操作任务中取得了显著的成功率提升,并能有效改善接触质量,对几何变化具有鲁棒性。
📝 摘要(中文)
接触式操作不仅需要视觉主导的任务语义,还需要对力/力矩(F/T)瞬态的闭环反应。然而,生成式视觉运动策略通常受限于低频率更新,因为推理延迟和动作分块,未能充分利用F/T进行控制速率反馈。此外,现有的力觉感知方法通常持续且不加区分地注入力,缺乏明确的机制来调度在不同任务阶段何时/多少/何处施加力。我们提出了PhaForce,一种相位调度的视觉-力觉策略,通过统一的接触/相位调度来协调低速率的分块级规划和高速率的残差校正。PhaForce包括(i)一个接触感知相位预测器(CAP),用于估计接触概率和相位置信度,(ii)一个慢速扩散规划器,执行双门控视觉-力觉融合,通过正交残差注入来保留视觉语义,同时以力为条件,以及(iii)一个快速校正器,在可解释的校正子空间中应用控制速率的相位路由残差,用于分块内的微调。在多个真实机器人接触式任务中,PhaForce实现了平均86%的成功率(比基线高40个百分点),同时通过调节交互力并表现出对OOD几何变化的鲁棒适应性,显著提高了接触质量。
🔬 方法详解
问题定义:现有接触式操作方法主要面临两个痛点。一是视觉运动策略的推理延迟和动作分块导致控制频率较低,无法充分利用力/力矩信息进行实时反馈。二是现有的力觉感知方法缺乏对力施加的精细调度,无法根据任务阶段和接触状态动态调整力的作用方式。
核心思路:PhaForce的核心思路是将接触式操作分解为不同的相位,并根据相位信息动态地调度视觉和力觉信息。通过低速的视觉规划器进行全局动作规划,并利用高速的力觉校正器进行局部微调,从而实现视觉语义理解和力觉闭环控制的有效结合。
技术框架:PhaForce包含三个主要模块:(1) 接触感知相位预测器(CAP):用于估计接触概率和相位置信度,为后续的规划和校正提供依据。(2) 慢速扩散规划器:基于视觉和力觉信息进行全局动作规划,采用双门控机制融合视觉和力觉特征,并通过正交残差注入保留视觉语义。(3) 快速校正器:根据相位信息,在可解释的校正子空间中应用控制速率的残差,实现对动作的快速微调。
关键创新:PhaForce的关键创新在于提出了相位调度的视觉-力觉策略,将接触式操作分解为不同的相位,并根据相位信息动态地调度视觉和力觉信息。这种方法能够有效地结合视觉语义理解和力觉闭环控制,提高接触式操作的性能和鲁棒性。此外,正交残差注入和相位路由残差校正也是重要的技术创新。
关键设计:接触感知相位预测器(CAP)使用卷积神经网络提取视觉特征,并预测接触概率和相位置信度。慢速扩散规划器采用扩散模型生成动作序列,并使用双门控机制融合视觉和力觉特征。快速校正器使用线性映射将相位信息映射到校正子空间,并应用控制速率的残差进行动作微调。损失函数包括动作损失、接触损失和相位损失,用于训练整个模型。
🖼️ 关键图片
📊 实验亮点
PhaForce在多个真实机器人接触式任务中取得了显著的性能提升,平均成功率达到86%,比基线方法高出40个百分点。此外,PhaForce还能有效改善接触质量,降低交互力,并对OOD几何变化表现出良好的鲁棒性。这些实验结果表明,PhaForce是一种有效的接触式操作策略学习方法。
🎯 应用场景
PhaForce在机器人操作领域具有广泛的应用前景,例如装配、抓取、打磨等需要与环境进行精确接触的任务。该方法可以提高机器人在复杂环境中的操作能力,并降低对环境模型的依赖,从而实现更智能、更灵活的机器人操作。
📄 摘要(原文)
Contact-rich manipulation requires not only vision-dominant task semantics but also closed-loop reactions to force/torque (F/T) transients. Yet, generative visuomotor policies are typically constrained to low-frequency updates due to inference latency and action chunking, underutilizing F/T for control-rate feedback. Furthermore, existing force-aware methods often inject force continuously and indiscriminately, lacking an explicit mechanism to schedule when / how much / where to apply force across different task phases. We propose PhaForce, a phase-scheduled visual--force policy that coordinates low-rate chunk-level planning and high-rate residual correction via a unified contact/phase schedule. PhaForce comprises (i) a contact-aware phase predictor (CAP) that estimates contact probability and phase belief, (ii) a Slow diffusion planner that performs dual-gated visual--force fusion with orthogonal residual injection to preserve vision semantics while conditioning on force, and (iii) a Fast corrector that applies control-rate phase-routed residuals in interpretable corrective subspaces for within-chunk micro-adjustments. Across multiple real-robot contact-rich tasks, PhaForce achieves an average success rate of 86% (+40 pp over baselines), while also substantially improving contact quality by regulating interaction forces and exhibiting robust adaptability to OOD geometric shifts.