VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

📄 arXiv: 2604.19728v1 📥 PDF

作者: Jean Mercat, Sedrick Keh, Kushal Arora, Isabella Huang, Paarth Shah, Haruki Nishimura, Shun Iwase, Katherine Liu

分类: cs.RO, cs.AI, cs.CV, cs.LG, cs.SE

发布日期: 2026-04-21

备注: 32 pages, 16 figures, technical report

🔗 代码/项目: GITHUB | HUGGINGFACE | PROJECT_PAGE


💡 一句话要点

提出VLA Foundry以统一训练视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 多模态训练 开源框架 机器人控制 智能系统

📋 核心要点

  1. 现有的开源VLA项目通常只关注动作训练,缺乏统一的训练框架,导致不同阶段的管道不兼容。
  2. VLA Foundry提供了一个共享的训练堆栈,支持从语言预训练到动作微调的全流程训练,简化了模型训练的复杂性。
  3. 实验结果表明,完全从头训练的模型在性能上与之前的闭源工作相当,而基于Qwen3-VL的模型在多任务桌面操作中显著超越了基线。

📝 摘要(中文)

我们提出了VLA Foundry,这是一个开源框架,统一了大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作模型(VLA)的训练。大多数开源VLA项目专注于动作训练阶段,通常将不兼容的预训练管道拼接在一起。而VLA Foundry则提供了一个共享的训练堆栈,实现从语言预训练到动作专家微调的端到端控制。该框架支持从头开始训练和使用Hugging Face的预训练骨干网络。我们训练并发布了两种模型,第一种是通过我们的LLM-->VLM-->VLA管道完全从头开始训练的,第二种是基于预训练的Qwen3-VL骨干网络构建的。我们在LBM Eval上评估了这两种模型的闭环策略性能,并对模拟器和STEP分析工具进行了可用性改进。

🔬 方法详解

问题定义:本论文旨在解决现有视觉-语言-动作模型训练过程中缺乏统一框架的问题。现有方法往往只专注于某一阶段,导致训练管道不兼容,影响整体性能。

核心思路:VLA Foundry的核心思想是提供一个端到端的训练框架,涵盖从语言预训练到动作微调的所有阶段,确保各个模块之间的兼容性和协同工作。

技术框架:该框架包括三个主要模块:大语言模型(LLM)预训练、视觉语言模型(VLM)训练和视觉语言动作模型(VLA)微调。用户可以选择从头开始训练或使用预训练的骨干网络。

关键创新:VLA Foundry的最大创新在于其统一的训练堆栈,解决了以往模型训练中各阶段不兼容的问题,使得不同模型之间可以无缝衔接。

关键设计:在设计上,VLA Foundry允许用户灵活选择训练参数,并提供了多种损失函数和网络结构的配置选项,以适应不同的任务需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,完全从头训练的模型在LBM Eval上的表现与之前的闭源工作相当,而基于Qwen3-VL骨干网络的模型在多任务桌面操作中超越了基线,表现出显著的性能提升,验证了VLA Foundry的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动化操作和人机交互等。通过统一的训练框架,VLA Foundry能够加速多模态模型的开发与部署,提升智能系统在复杂环境中的适应能力和执行效率。

📄 摘要(原文)

We present VLA Foundry, an open-source framework that unifies LLM, VLM, and VLA training in a single codebase. Most open-source VLA efforts specialize on the action training stage, often stitching together incompatible pretraining pipelines. VLA Foundry instead provides a shared training stack with end-to-end control, from language pretraining to action-expert fine-tuning. VLA Foundry supports both from-scratch training and pretrained backbones from Hugging Face. To demonstrate the utility of our framework, we train and release two types of models: the first trained fully from scratch through our LLM-->VLM-->VLA pipeline and the second built on the pretrained Qwen3-VL backbone. We evaluate closed-loop policy performance of both models on LBM Eval, an open-data, open-source simulator. We also contribute usability improvements to the simulator and the STEP analysis tools for easier public use. In the nominal evaluation setting, our fully-open from-scratch model is on par with our prior closed-source work and substituting in the Qwen3-VL backbone leads to a strong multi-task table top manipulation policy outperforming our baseline by a wide margin. The VLA Foundry codebase is available at https://github.com/TRI-ML/vla_foundry and all multi-task model weights are released on https://huggingface.co/collections/TRI-ML/vla-foundry. Additional qualitative videos are available on the project website https://tri-ml.github.io/vla_foundry.