ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation

📄 arXiv: 2603.15169v1 📥 PDF

作者: Yang Li, Zhaxizhuoma, Hongru Jiang, Junjie Xia, Hongquan Zhang, Jinda Du, Yunsong Zhou, Jia Zeng, Ce Hao, Jieji Ren, Qiaojun Yu, Cewu Lu, Yu Qiao, Jiangmiao Pang

分类: cs.RO

发布日期: 2026-03-16

备注: Accepted by CVPR 2026


💡 一句话要点

提出ForceVLA2以解决接触丰富操作中的力感知问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 接触丰富操作 力感知 混合控制 视觉-语言模型 机器人技术 智能体学习

📋 核心要点

  1. 现有的接触丰富操作方法主要依赖位置控制,缺乏对交互力的感知和调节,导致稳定性和精确性不足。
  2. 本文提出ForceVLA2,通过引入力感知提示和混合专家机制,实现了力-位置的闭环控制,增强了机器人在复杂任务中的表现。
  3. 实验结果显示,ForceVLA2在五个任务中成功率提高了48.0%和35.0%,有效缓解了常见的失败模式,如臂部过载和不稳定接触。

📝 摘要(中文)

在接触丰富的操作中,现有的智能体主要依赖位置控制,而对交互力的显式感知和调节仍然未得到充分探索,这限制了在实际任务中的稳定性、精确性和鲁棒性。本文提出了ForceVLA2,一个端到端的视觉-语言-动作框架,结合了混合的力-位置控制和显式的力感知。ForceVLA2通过将基于力的提示引入VLM专家,构建了跨阶段的力感知任务概念,并在动作专家中采用跨尺度的混合专家(MoE)来自适应地融合这些概念与实时交互力,实现闭环的混合力-位置调节。为支持学习和评估,我们构建了ForceVLA2-Dataset,包含1000条轨迹,涵盖5个接触丰富的任务,提供多视角图像、任务提示、自身状态和力信号。大量实验表明,ForceVLA2在接触丰富的操作中显著提高了成功率和可靠性。

🔬 方法详解

问题定义:本文旨在解决接触丰富操作中对交互力的感知不足的问题。现有方法主要依赖位置控制,导致在实际应用中稳定性和精确性不足。

核心思路:ForceVLA2通过引入力感知提示和混合专家机制,结合力和位置的控制,实现了更为精确和稳定的操作。这样的设计使得机器人能够在复杂的接触任务中更好地适应环境变化。

技术框架:ForceVLA2的整体架构包括三个主要模块:视觉-语言模型(VLM)、力感知模块和混合专家(MoE)模块。VLM负责任务理解,力感知模块提供实时交互力信息,MoE模块则融合这两者以实现闭环控制。

关键创新:最重要的技术创新在于引入了力感知提示和跨尺度的混合专家机制,使得机器人能够在执行任务时动态调整控制策略,显著提升了操作的成功率和可靠性。

关键设计:在网络结构上,ForceVLA2采用了多层次的混合专家架构,能够自适应地处理不同尺度的任务信息。同时,损失函数设计考虑了力感知的准确性和任务成功率的平衡,确保了模型的有效学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ForceVLA2在五个接触丰富的任务中,成功率分别提高了48.0%和35.0%,显著优于基线方法pi0和pi0.5。此外,该方法有效缓解了常见的失败模式,如臂部过载和不稳定接触,展现了其在实际应用中的可靠性。

🎯 应用场景

ForceVLA2的研究成果在多个领域具有广泛的应用潜力,包括服务机器人、工业自动化和医疗辅助等。通过增强机器人对交互力的感知能力,可以提高其在复杂环境中的操作精度和安全性,推动智能机器人在实际应用中的普及和发展。

📄 摘要(原文)

Embodied intelligence for contact-rich manipulation has predominantly relied on position control, while explicit awareness and regulation of interaction forces remain under-explored, limiting stability, precision, and robustness in real-world tasks. We propose ForceVLA2, an end-to-end vision-language-action framework that equips robots with hybrid force-position control and explicit force awareness. ForceVLA2 introduces force-based prompts into the VLM expert to construct force-aware task concepts across stages, and employs a Cross-Scale Mixture-of-Experts (MoE) in the action expert to adaptively fuse these concepts with real-time interaction forces for closed-loop hybrid force-position regulation. To support learning and evaluation, we construct ForceVLA2-Dataset, containing 1,000 trajectories over 5 contact-rich tasks, including wiping, pressing, and assembling, with multi-view images, task prompts, proprioceptive state, and force signals. Extensive experiments show that ForceVLA2 substantially improves success rates and reliability in contact-rich manipulation, outperforming pi0 and pi0.5 by 48.0% and 35.0%, respectively, across the 5 tasks, and mitigating common failure modes such as arm overload and unstable contact, thereby actively advancing force-aware interactive physical intelligence in VLAs. The project page is available at https://sites.google.com/view/force-vla2/home.