Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

作者: Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen

分类: cs.RO, cs.AI, cs.CL

发布日期: 2026-05-28

备注: 34 pages

💡 一句话要点

Qwen-VLA：统一视觉-语言-动作建模，实现跨任务、环境和机器人形态的通用具身智能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 机器人操作 导航 轨迹预测 多任务学习 通用人工智能

📋 核心要点

现有具身智能研究通常针对特定任务构建专门模型，导致能力碎片化，难以跨任务、环境和机器人泛化。
Qwen-VLA通过统一的视觉-语言-动作模型，将感知、理解、推理与连续动作生成相结合，实现通用具身智能。
实验表明，Qwen-VLA在操作、导航和轨迹预测任务上均表现出色，并具备良好的超出分布泛化能力。

📝 摘要（中文）

本文提出Qwen-VLA，一个统一的具身智能基础模型，它扩展了Qwen的视觉-语言建模能力，从感知、理解和推理到连续动作和轨迹生成，通过基于DiT的动作解码器实现。Qwen-VLA通过大规模联合预训练，利用包括机器人操作轨迹、人类第一视角演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督和辅助视觉-语言数据等多样化数据源进行训练。为了支持多个机器人平台，引入了具身感知提示调节，其中机器人特定的文本描述指定了当前的机器人形态和控制约定。进一步将操作、导航和轨迹预测转化为统一的动作和轨迹预测框架，从而实现跨机器人形态、任务类型和环境的可迁移视觉基础、空间推理和连续动作生成。在操作、导航和轨迹中心基准测试上的实验表明，在场景布局、背景、光照、物体配置和机器人形态变化下，Qwen-VLA表现出一致的多任务性能和超出分布的泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%，在Simpler-WidowX上达到73.7%，在RoboTwin-Easy/Hard上达到86.1%/87.2%，在R2R上达到69.0% OSR，在RxR上达到59.6% SR，在真实ALOHA实验中达到76.9%的平均OOD成功率，在DOMINO动态操作上达到26.6%的零样本成功率。

🔬 方法详解

问题定义：现有具身智能模型通常针对特定任务设计，例如操作或导航，导致模型能力分散，难以在不同任务、环境和机器人形态之间进行泛化。这种碎片化的方法阻碍了通用具身智能的发展。

核心思路：Qwen-VLA的核心思路是将不同的具身决策问题统一到一个视觉-语言-动作模型中。通过大规模联合预训练，模型能够学习到通用的视觉基础、空间推理和连续动作生成能力，从而实现跨任务、环境和机器人形态的泛化。

技术框架：Qwen-VLA建立在Qwen的视觉-语言建模堆栈之上，并扩展到连续动作和轨迹生成。其主要组成部分包括：视觉编码器（用于处理图像输入）、语言模型（用于理解指令和上下文）、基于DiT的动作解码器（用于生成连续动作和轨迹）。模型通过大规模联合预训练，利用多种数据源进行训练，包括机器人操作轨迹、人类第一视角演示、合成仿真数据、视觉-语言导航数据等。

关键创新：Qwen-VLA的关键创新在于其统一的动作和轨迹预测框架，该框架能够将操作、导航和轨迹预测等不同任务统一起来。此外，模型还引入了具身感知提示调节，通过机器人特定的文本描述来指定当前的机器人形态和控制约定，从而支持多个机器人平台。

关键设计：Qwen-VLA使用基于DiT的动作解码器来生成连续动作和轨迹。模型采用大规模联合预训练策略，并使用多种数据源进行训练。为了支持多个机器人平台，模型引入了具身感知提示调节。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述。

📊 实验亮点

Qwen-VLA-Instruct在LIBERO上达到97.9%的成功率，在Simpler-WidowX上达到73.7%的成功率，在RoboTwin-Easy/Hard上达到86.1%/87.2%的成功率，在R2R上达到69.0% OSR，在RxR上达到59.6% SR，在真实ALOHA实验中达到76.9%的平均OOD成功率，在DOMINO动态操作上达到26.6%的零样本成功率。这些结果表明，Qwen-VLA在多个具身智能任务上均取得了显著的性能提升，并具备良好的泛化能力。

🎯 应用场景

Qwen-VLA的潜在应用领域包括：智能制造、家庭服务机器人、自动驾驶、医疗机器人等。该研究的实际价值在于降低了开发通用具身智能系统的成本和复杂性，并为未来的具身智能研究提供了新的方向。未来，Qwen-VLA有望实现更高级别的自主性和适应性，从而更好地服务于人类社会。

📄 摘要（原文）

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理