VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

作者: Jean Mercat, Sedrick Keh, Kushal Arora, Isabella Huang, Paarth Shah, Haruki Nishimura, Shun Iwase, Katherine Liu

分类: cs.RO, cs.AI, cs.CV, cs.LG, cs.SE

发布日期: 2026-04-21

备注: 32 pages, 16 figures, technical report

🔗 代码/项目: GITHUB | HUGGINGFACE | PROJECT_PAGE

💡 一句话要点

提出VLA Foundry以统一训练视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 多模态训练 开源框架 机器人控制 智能系统

📋 核心要点

现有的开源VLA项目通常只关注动作训练，缺乏统一的训练框架，导致不同阶段的管道不兼容。
VLA Foundry提供了一个共享的训练堆栈，支持从语言预训练到动作微调的全流程训练，简化了模型训练的复杂性。
实验结果表明，完全从头训练的模型在性能上与之前的闭源工作相当，而基于Qwen3-VL的模型在多任务桌面操作中显著超越了基线。

📝 摘要（中文）

我们提出了VLA Foundry，这是一个开源框架，统一了大语言模型（LLM）、视觉语言模型（VLM）和视觉语言动作模型（VLA）的训练。大多数开源VLA项目专注于动作训练阶段，通常将不兼容的预训练管道拼接在一起。而VLA Foundry则提供了一个共享的训练堆栈，实现从语言预训练到动作专家微调的端到端控制。该框架支持从头开始训练和使用Hugging Face的预训练骨干网络。我们训练并发布了两种模型，第一种是通过我们的LLM-->VLM-->VLA管道完全从头开始训练的，第二种是基于预训练的Qwen3-VL骨干网络构建的。我们在LBM Eval上评估了这两种模型的闭环策略性能，并对模拟器和STEP分析工具进行了可用性改进。

🔬 方法详解

问题定义：本论文旨在解决现有视觉-语言-动作模型训练过程中缺乏统一框架的问题。现有方法往往只专注于某一阶段，导致训练管道不兼容，影响整体性能。

核心思路：VLA Foundry的核心思想是提供一个端到端的训练框架，涵盖从语言预训练到动作微调的所有阶段，确保各个模块之间的兼容性和协同工作。

技术框架：该框架包括三个主要模块：大语言模型（LLM）预训练、视觉语言模型（VLM）训练和视觉语言动作模型（VLA）微调。用户可以选择从头开始训练或使用预训练的骨干网络。

关键创新：VLA Foundry的最大创新在于其统一的训练堆栈，解决了以往模型训练中各阶段不兼容的问题，使得不同模型之间可以无缝衔接。

关键设计：在设计上，VLA Foundry允许用户灵活选择训练参数，并提供了多种损失函数和网络结构的配置选项，以适应不同的任务需求。

🖼️ 关键图片

📊 实验亮点

实验结果显示，完全从头训练的模型在LBM Eval上的表现与之前的闭源工作相当，而基于Qwen3-VL骨干网络的模型在多任务桌面操作中超越了基线，表现出显著的性能提升，验证了VLA Foundry的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动化操作和人机交互等。通过统一的训练框架，VLA Foundry能够加速多模态模型的开发与部署，提升智能系统在复杂环境中的适应能力和执行效率。

📄 摘要（原文）

We present VLA Foundry, an open-source framework that unifies LLM, VLM, and VLA training in a single codebase. Most open-source VLA efforts specialize on the action training stage, often stitching together incompatible pretraining pipelines. VLA Foundry instead provides a shared training stack with end-to-end control, from language pretraining to action-expert fine-tuning. VLA Foundry supports both from-scratch training and pretrained backbones from Hugging Face. To demonstrate the utility of our framework, we train and release two types of models: the first trained fully from scratch through our LLM-->VLM-->VLA pipeline and the second built on the pretrained Qwen3-VL backbone. We evaluate closed-loop policy performance of both models on LBM Eval, an open-data, open-source simulator. We also contribute usability improvements to the simulator and the STEP analysis tools for easier public use. In the nominal evaluation setting, our fully-open from-scratch model is on par with our prior closed-source work and substituting in the Qwen3-VL backbone leads to a strong multi-task table top manipulation policy outperforming our baseline by a wide margin. The VLA Foundry codebase is available at https://github.com/TRI-ML/vla_foundry and all multi-task model weights are released on https://huggingface.co/collections/TRI-ML/vla-foundry. Additional qualitative videos are available on the project website https://tri-ml.github.io/vla_foundry.

VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理