ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

作者: Jiawen Yu, Hairuo Liu, Qiaojun Yu, Jieji Ren, Ce Hao, Haitong Ding, Guangyu Huang, Guofan Huang, Yan Song, Panpan Cai, Cewu Lu, Wenqiang Zhang

分类: cs.RO, cs.CV

发布日期: 2025-05-28 (更新: 2025-09-18)

备注: NeurIPS 2025

💡 一句话要点

ForceVLA：力觉感知的混合专家模型增强接触式操作的VLA模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 力觉感知 混合专家模型 视觉语言动作模型 多模态融合

📋 核心要点

现有VLA模型在视觉遮挡或动态不确定性下，难以处理需要精细力控制的接触式操作任务。
ForceVLA将力觉传感作为VLA系统的重要模态，通过力觉感知的混合专家模块动态融合视觉、语言和力反馈。
实验表明，ForceVLA在接触式操作任务中，相比基线方法平均任务成功率提升23.2%，插头插入任务成功率高达80%。

📝 摘要（中文）

视觉-语言-动作(VLA)模型通过利用预训练的视觉和语言表征，在通用机器人操作方面取得了进展。然而，它们在需要精细控制的接触式任务中表现不佳，尤其是在视觉遮挡或动态不确定性下。为了解决这些限制，我们提出了ForceVLA，一种新颖的端到端操作框架，将外部力觉传感视为VLA系统中的一等模态。ForceVLA引入了FVLMoE，一个力觉感知的混合专家融合模块，在动作解码期间动态地将预训练的视觉-语言嵌入与实时六轴力反馈相结合。这使得跨模态特定专家的上下文感知路由成为可能，从而增强了机器人适应细微接触动态的能力。我们还引入了ForceVLA-Data，一个新的数据集，包含五个接触式操作任务中同步的视觉、本体感觉和力矩信号。ForceVLA比强大的基于pi_0的基线提高了23.2%的平均任务成功率，在插头插入等任务中达到了高达80%的成功率。我们的方法突出了多模态融合对于灵巧操作的重要性，并为物理智能机器人控制设定了新的基准。

🔬 方法详解

问题定义：现有VLA模型在处理接触式操作任务时，尤其是在视觉信息受限或存在动态不确定性的情况下，难以实现精细的力控制。这主要是因为它们缺乏对外部作用力的有效感知和利用，导致无法准确适应接触过程中的动态变化。现有方法通常依赖视觉信息进行操作，忽略了力觉信息的重要性。

核心思路：ForceVLA的核心思路是将力觉信息作为VLA系统中的一等模态，通过融合视觉、语言和力觉信息，使机器人能够更好地理解和适应接触过程中的动态变化。该方法利用力觉反馈来指导动作的生成，从而实现更精确和鲁棒的接触式操作。

技术框架：ForceVLA的整体框架包括以下几个主要模块：1) 视觉-语言编码器：用于提取视觉和语言信息的特征表示。2) 力觉传感器：用于实时获取六轴力/力矩数据。3) FVLMoE（力觉感知的混合专家）模块：用于动态融合视觉-语言嵌入和力觉反馈。4) 动作解码器：用于生成机器人的控制指令。FVLMoE模块是ForceVLA的核心组件，它根据上下文信息动态地选择不同的专家，从而实现对不同模态信息的有效融合。

关键创新：ForceVLA最重要的技术创新点在于FVLMoE模块的设计。FVLMoE是一种力觉感知的混合专家融合模块，它能够根据当前的视觉、语言和力觉信息，动态地选择不同的专家进行信息融合。这种动态融合机制使得ForceVLA能够更好地适应接触过程中的动态变化，从而实现更精确和鲁棒的接触式操作。与现有方法相比，ForceVLA能够显式地利用力觉信息，并将其与视觉和语言信息进行有效融合。

关键设计：FVLMoE模块的关键设计包括：1) 使用门控网络来动态选择不同的专家。2) 使用力觉信息作为门控网络的输入，从而实现力觉感知的专家选择。3) 使用残差连接来提高模型的训练效率。ForceVLA-Data数据集包含同步的视觉、本体感觉和力矩信号，涵盖五个接触式操作任务。损失函数的设计目标是最小化预测动作与真实动作之间的差异。

🖼️ 关键图片

📊 实验亮点

ForceVLA在五个接触式操作任务上进行了评估，实验结果表明，ForceVLA相比于强大的基于pi_0的基线方法，平均任务成功率提高了23.2%。在插头插入等任务中，ForceVLA的成功率达到了80%。这些结果表明，ForceVLA能够有效地利用力觉信息，从而提高机器人在接触式操作任务中的性能。

🎯 应用场景

ForceVLA在需要精细力控制的机器人操作领域具有广泛的应用前景，例如精密装配、医疗手术、家庭服务机器人等。通过力觉感知增强机器人的操作能力，可以提高操作的精度、鲁棒性和安全性，从而实现更智能和自主的机器人系统。该研究的成果有望推动机器人技术在各个领域的应用。

📄 摘要（原文）

Vision-Language-Action (VLA) models have advanced general-purpose robotic manipulation by leveraging pretrained visual and linguistic representations. However, they struggle with contact-rich tasks that require fine-grained control involving force, especially under visual occlusion or dynamic uncertainty. To address these limitations, we propose ForceVLA, a novel end-to-end manipulation framework that treats external force sensing as a first-class modality within VLA systems. ForceVLA introduces FVLMoE, a force-aware Mixture-of-Experts fusion module that dynamically integrates pretrained visual-language embeddings with real-time 6-axis force feedback during action decoding. This enables context-aware routing across modality-specific experts, enhancing the robot's ability to adapt to subtle contact dynamics. We also introduce \textbf{ForceVLA-Data}, a new dataset comprising synchronized vision, proprioception, and force-torque signals across five contact-rich manipulation tasks. ForceVLA improves average task success by 23.2% over strong pi_0-based baselines, achieving up to 80% success in tasks such as plug insertion. Our approach highlights the importance of multimodal integration for dexterous manipulation and sets a new benchmark for physically intelligent robotic control. Code and data will be released at https://sites.google.com/view/forcevla2025.

ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理