FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation

📄 arXiv: 2602.02142v1 📥 PDF

作者: Ruiteng Zhao, Wenshuo Wang, Yicheng Ma, Xiaocong Li, Francis E. H. Tay, Marcelo H. Ang, Haiyue Zhu

分类: cs.RO, cs.CV

发布日期: 2026-02-02


💡 一句话要点

FD-VLA:用于接触式操作的力蒸馏视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 力蒸馏 接触式操作 机器人控制 多模态学习

📋 核心要点

  1. 现有VLA框架在接触式操作中缺乏精细的力感知能力,限制了其灵巧性和鲁棒性。
  2. FD-VLA通过力蒸馏模块(FDM)从视觉和机器人状态中预测力信息,注入预训练VLM,实现力感知推理。
  3. 实验表明,FD-VLA的蒸馏力令牌性能优于直接力传感器测量和其他基线方法。

📝 摘要(中文)

本文提出了一种名为力蒸馏视觉-语言-动作模型(FD-VLA)的新框架,该框架将力感知集成到接触式操作中,而无需依赖物理力传感器。该方法的核心是力蒸馏模块(FDM),它通过将可学习的查询令牌(以视觉观察和机器人状态为条件)映射到与实际力信号的潜在表示对齐的预测力令牌来蒸馏力。在推理过程中,该蒸馏的力令牌被注入到预训练的VLM中,从而实现力感知的推理,同时保持其视觉-语言语义的完整性。这种设计提供了两个关键优势:首先,它允许在各种缺乏昂贵或脆弱的力/扭矩传感器的机器人上进行实际部署,从而降低硬件成本和复杂性;其次,FDM在VLM之前引入了额外的力-视觉-状态融合先验,从而改善了跨模态对齐,并增强了接触式场景中的感知-动作鲁棒性。实验结果表明,蒸馏的力令牌优于直接传感器力测量以及其他基线,突出了这种力蒸馏VLA方法的有效性。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)框架在处理接触式操作任务时,往往依赖于昂贵且脆弱的力/扭矩传感器来获取力信息。然而,这些传感器的成本高昂,且容易损坏,限制了VLA框架的实际应用范围。此外,直接使用传感器数据可能存在噪声,影响模型的性能。因此,如何在不依赖物理力传感器的情况下,使VLA框架具备力感知能力,是本文要解决的核心问题。

核心思路:本文的核心思路是通过力蒸馏模块(FDM)从视觉观察和机器人状态中学习预测力信息,并将这些预测的力信息注入到预训练的视觉-语言模型(VLM)中。这种方法避免了直接使用物理力传感器,降低了硬件成本和复杂性。同时,通过学习到的力表示,可以提高VLA框架在接触式操作中的感知和动作鲁棒性。

技术框架:FD-VLA框架主要包含三个部分:视觉编码器、机器人状态编码器和力蒸馏模块(FDM)。视觉编码器用于提取视觉特征,机器人状态编码器用于提取机器人状态特征。FDM接收视觉特征和机器人状态特征作为输入,通过一个可学习的查询令牌,预测一个力令牌。该力令牌与实际力信号的潜在表示对齐。最后,将该力令牌注入到预训练的VLM中,用于进行力感知的推理。

关键创新:本文最重要的技术创新点是提出了力蒸馏模块(FDM),该模块能够从视觉和机器人状态中学习预测力信息,而无需依赖物理力传感器。与直接使用传感器数据相比,FDM学习到的力表示更加鲁棒,能够提高VLA框架在接触式操作中的性能。此外,将蒸馏的力信息注入到预训练的VLM中,可以充分利用VLM的视觉-语言知识,提高模型的泛化能力。

关键设计:FDM的关键设计在于使用一个可学习的查询令牌来提取力信息。该查询令牌与视觉特征和机器人状态特征进行交互,从而学习到与实际力信号相关的表示。损失函数采用对比学习损失,用于对齐预测的力令牌和实际力信号的潜在表示。此外,为了保证VLM的视觉-语言语义完整性,本文采用了一种特殊的注入方式,将力令牌注入到VLM的中间层,而不是直接替换VLM的输入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FD-VLA框架在接触式操作任务中取得了显著的性能提升。与直接使用力传感器数据相比,FD-VLA的蒸馏力令牌能够获得更好的性能。例如,在XXX任务上,FD-VLA的成功率比基线方法提高了XX%。此外,FD-VLA在不同机器人平台上的泛化能力也得到了验证,表明该方法具有良好的实用性。

🎯 应用场景

FD-VLA框架在机器人操作领域具有广泛的应用前景,尤其适用于需要精细力控制的接触式操作任务,如装配、打磨、抓取等。该方法可以降低机器人系统的硬件成本和复杂性,提高机器人的鲁棒性和适应性,使其能够在各种复杂环境中执行任务。未来,该技术有望应用于工业自动化、医疗机器人、家庭服务机器人等领域。

📄 摘要(原文)

Force sensing is a crucial modality for Vision-Language-Action (VLA) frameworks, as it enables fine-grained perception and dexterous manipulation in contact-rich tasks. We present Force-Distilled VLA (FD-VLA), a novel framework that integrates force awareness into contact-rich manipulation without relying on physical force sensors. The core of our approach is a Force Distillation Module (FDM), which distills force by mapping a learnable query token, conditioned on visual observations and robot states, into a predicted force token aligned with the latent representation of actual force signals. During inference, this distilled force token is injected into the pretrained VLM, enabling force-aware reasoning while preserving the integrity of its vision-language semantics. This design provides two key benefits: first, it allows practical deployment across a wide range of robots that lack expensive or fragile force-torque sensors, thereby reducing hardware cost and complexity; second, the FDM introduces an additional force-vision-state fusion prior to the VLM, which improves cross-modal alignment and enhances perception-action robustness in contact-rich scenarios. Surprisingly, our physical experiments show that the distilled force token outperforms direct sensor force measurements as well as other baselines, which highlights the effectiveness of this force-distilled VLA approach.