PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

作者: Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu

分类: cs.RO

发布日期: 2026-03-09

💡 一句话要点

PhaForce：面向接触式操作，基于相位调度的视觉-力觉策略学习框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion)

关键词: 接触式操作 视觉-力觉融合 相位调度 机器人学习 扩散模型

📋 核心要点

现有接触式操作方法难以兼顾视觉语义理解和力觉闭环控制，通常存在控制频率低、力觉信息利用不足等问题。
PhaForce提出一种相位调度的视觉-力觉策略，通过接触感知相位预测、慢速扩散规划和快速残差校正三个模块协同工作。
实验结果表明，PhaForce在接触式操作任务中取得了显著的成功率提升，并能有效改善接触质量，对几何变化具有鲁棒性。

📝 摘要（中文）

接触式操作不仅需要视觉主导的任务语义，还需要对力/力矩（F/T）瞬态的闭环反应。然而，生成式视觉运动策略通常受限于低频率更新，因为推理延迟和动作分块，未能充分利用F/T进行控制速率反馈。此外，现有的力觉感知方法通常持续且不加区分地注入力，缺乏明确的机制来调度在不同任务阶段何时/多少/何处施加力。我们提出了PhaForce，一种相位调度的视觉-力觉策略，通过统一的接触/相位调度来协调低速率的分块级规划和高速率的残差校正。PhaForce包括（i）一个接触感知相位预测器（CAP），用于估计接触概率和相位置信度，（ii）一个慢速扩散规划器，执行双门控视觉-力觉融合，通过正交残差注入来保留视觉语义，同时以力为条件，以及（iii）一个快速校正器，在可解释的校正子空间中应用控制速率的相位路由残差，用于分块内的微调。在多个真实机器人接触式任务中，PhaForce实现了平均86%的成功率（比基线高40个百分点），同时通过调节交互力并表现出对OOD几何变化的鲁棒适应性，显著提高了接触质量。

🔬 方法详解

问题定义：现有接触式操作方法主要面临两个痛点。一是视觉运动策略的推理延迟和动作分块导致控制频率较低，无法充分利用力/力矩信息进行实时反馈。二是现有的力觉感知方法缺乏对力施加的精细调度，无法根据任务阶段和接触状态动态调整力的作用方式。

核心思路：PhaForce的核心思路是将接触式操作分解为不同的相位，并根据相位信息动态地调度视觉和力觉信息。通过低速的视觉规划器进行全局动作规划，并利用高速的力觉校正器进行局部微调，从而实现视觉语义理解和力觉闭环控制的有效结合。

技术框架：PhaForce包含三个主要模块：(1) 接触感知相位预测器（CAP）：用于估计接触概率和相位置信度，为后续的规划和校正提供依据。(2) 慢速扩散规划器：基于视觉和力觉信息进行全局动作规划，采用双门控机制融合视觉和力觉特征，并通过正交残差注入保留视觉语义。(3) 快速校正器：根据相位信息，在可解释的校正子空间中应用控制速率的残差，实现对动作的快速微调。

关键创新：PhaForce的关键创新在于提出了相位调度的视觉-力觉策略，将接触式操作分解为不同的相位，并根据相位信息动态地调度视觉和力觉信息。这种方法能够有效地结合视觉语义理解和力觉闭环控制，提高接触式操作的性能和鲁棒性。此外，正交残差注入和相位路由残差校正也是重要的技术创新。

关键设计：接触感知相位预测器（CAP）使用卷积神经网络提取视觉特征，并预测接触概率和相位置信度。慢速扩散规划器采用扩散模型生成动作序列，并使用双门控机制融合视觉和力觉特征。快速校正器使用线性映射将相位信息映射到校正子空间，并应用控制速率的残差进行动作微调。损失函数包括动作损失、接触损失和相位损失，用于训练整个模型。

🖼️ 关键图片

📊 实验亮点

PhaForce在多个真实机器人接触式任务中取得了显著的性能提升，平均成功率达到86%，比基线方法高出40个百分点。此外，PhaForce还能有效改善接触质量，降低交互力，并对OOD几何变化表现出良好的鲁棒性。这些实验结果表明，PhaForce是一种有效的接触式操作策略学习方法。

🎯 应用场景

PhaForce在机器人操作领域具有广泛的应用前景，例如装配、抓取、打磨等需要与环境进行精确接触的任务。该方法可以提高机器人在复杂环境中的操作能力，并降低对环境模型的依赖，从而实现更智能、更灵活的机器人操作。

📄 摘要（原文）

Contact-rich manipulation requires not only vision-dominant task semantics but also closed-loop reactions to force/torque (F/T) transients. Yet, generative visuomotor policies are typically constrained to low-frequency updates due to inference latency and action chunking, underutilizing F/T for control-rate feedback. Furthermore, existing force-aware methods often inject force continuously and indiscriminately, lacking an explicit mechanism to schedule when / how much / where to apply force across different task phases. We propose PhaForce, a phase-scheduled visual--force policy that coordinates low-rate chunk-level planning and high-rate residual correction via a unified contact/phase schedule. PhaForce comprises (i) a contact-aware phase predictor (CAP) that estimates contact probability and phase belief, (ii) a Slow diffusion planner that performs dual-gated visual--force fusion with orthogonal residual injection to preserve vision semantics while conditioning on force, and (iii) a Fast corrector that applies control-rate phase-routed residuals in interpretable corrective subspaces for within-chunk micro-adjustments. Across multiple real-robot contact-rich tasks, PhaForce achieves an average success rate of 86% (+40 pp over baselines), while also substantially improving contact quality by regulating interaction forces and exhibiting robust adaptability to OOD geometric shifts.

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理