ForgeVLA: Federated Vision-Language-Action Learning without Language Annotations
作者: Yuhao Zhou, Yunpeng Zhu, Yang Zhou, Jindi Lyu, Jian Lan, Zhangyuan Wang, Dan Si, Thomas Seidl, Qing Ye, Jiancheng Lyu
分类: cs.CV, cs.AI
发布日期: 2026-05-08
备注: 26 pages
💡 一句话要点
提出ForgeVLA框架,通过联邦学习实现无语言标注的视觉-语言-动作模型训练
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 具身智能 视觉-语言-动作模型 多模态学习 数据隐私 特征坍塌 机器人学习
📋 核心要点
- 现有VLA模型依赖大规模人工标注数据,且受限于隐私和数据异构性,无法直接聚合分布式机器人产生的海量原始视觉-动作对。
- ForgeVLA通过客户端具身指令分类器自动补全语言模态,并引入对比规划损失与自适应聚合策略,有效解决了联邦学习中的特征坍塌问题。
- 在多个机器人基准测试中,ForgeVLA展现出优异的性能,证明了在无需集中数据和人工标注的情况下,实现高效联邦VLA训练的可行性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在通用机器人智能领域展现出巨大潜力,但高质量标注数据的获取成本限制了其规模化扩展。尽管跨领域部署的机器人产生了海量视觉-动作对,但由于隐私限制和数据异构性,这些数据难以集中处理。为此,本文提出了ForgeVLA,这是一个无需集中原始数据且无需人工标注的联邦VLA训练框架。ForgeVLA通过在客户端部署具身指令分类器,将视觉-动作对映射至预定义指令集,从而恢复缺失的语言模态。此外,针对联邦学习中常见的视觉-语言特征坍塌问题,该框架结合了客户端对比规划损失与服务端自适应聚合策略,以学习具有任务判别力的表征。实验表明,ForgeVLA在多个基准测试中显著优于现有基线方法。
🔬 方法详解
问题定义:论文旨在解决机器人领域VLA模型训练中“数据孤岛”与“标注缺失”的双重难题。现有方法依赖中心化数据集,且缺乏大规模标注,导致模型难以利用分布式机器人产生的海量原始视觉-动作对进行扩展。
核心思路:通过联邦学习范式,在保护数据隐私的前提下,利用客户端本地的具身指令分类器将无标注的视觉-动作对转化为完整的视觉-语言-动作三元组,并针对联邦环境下的特征坍塌问题进行针对性优化。
技术框架:整体架构包含客户端与服务端两部分。客户端负责利用本地分类器进行指令伪标注,并计算对比规划损失;服务端则负责接收客户端更新,通过自适应聚合策略整合模型参数,确保全局模型的泛化能力。
关键创新:引入了“具身指令分类器”实现模态补全,并首次在联邦VLA场景中系统性地识别并缓解了视觉-语言特征坍塌问题,实现了在异构数据分布下的稳定训练。
关键设计:采用客户端对比规划损失(Contrastive Planning Loss)以增强表征的判别力,配合服务端自适应聚合策略(Adaptive Aggregation Strategy)动态调整各客户端贡献,有效平衡了不同机器人域之间的异构性。
🖼️ 关键图片
📊 实验亮点
实验在多个主流机器人基准测试中进行,结果显示ForgeVLA在任务成功率上显著超越了现有的联邦学习基线方法。消融实验进一步证实,具身指令分类器与对比规划损失的结合,能够有效缓解特征坍塌,在数据异构性极高的场景下仍能保持模型性能的稳健提升。
🎯 应用场景
该研究适用于多机器人协作、跨场景具身智能部署等领域。在工厂自动化、仓储物流及家庭服务机器人中,ForgeVLA能够利用各终端产生的实时交互数据持续优化模型,无需上传敏感视觉数据,显著降低了数据标注成本,推动了通用机器人智能的规模化落地。
📄 摘要(原文)
Vision-Language-Action (VLA) models hold great promise for general-purpose robotic intelligence, yet scaling up such models is severely bottlenecked by the high cost of acquiring annotated training data. Fortunately, vision-equipped robots deployed across various domains already produce abundant vision-action pairs that can be leveraged to scale up VLA training more efficiently. However, these raw data cannot be centrally aggregated due to various constraints and also exhibit severe heterogeneity. To address these challenges, in this paper, we propose ForgeVLA, a federated VLA training framework that learns VLA models from distributed vision-action pairs without centralizing raw data or requiring manual annotations. Specifically, each client in ForgeVLA is equipped with an embodied instruction classifier that maps vision-action pairs to a predefined instruction set, recovering the missing language modality and forming complete vision-language-action triplets. Beyond triplet construction, we also identify vision-language feature collapse as a critical challenge that has been largely overlooked in prior federated VLA research. To mitigate this issue, ForgeVLA combines a client-side contrastive planning loss with a server-side adaptive aggregation strategy to learn task-discriminative representations efficiently. Extensive experiments across multiple benchmarks show that ForgeVLA significantly outperforms other baselines, and ablation studies further validate the contribution of each component.