ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

作者: Zhongyi Zhou, Yichen Zhu, Junjie Wen, Chaomin Shen, Yi Xu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-05-28 (更新: 2025-05-29)

备注: Project page: https://chatvla-2.github.io/

💡 一句话要点

ChatVLA-2：基于预训练知识的开放世界具身推理视觉-语言-动作模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 具身推理 混合专家模型 两阶段训练 开放世界 机器人 预训练模型

📋 核心要点

现有端到端VLA模型在适应特定机器人任务时，容易丢失预训练VLM的关键能力，限制了模型的泛化性。
ChatVLA-2提出一种混合专家VLA模型，结合两阶段训练流程，旨在保留VLM的原始优势，并增强可操作的推理能力。
实验表明，ChatVLA-2在数学推理、OCR和空间推理方面表现出色，显著超越了现有模仿学习方法。

📝 摘要（中文）

视觉-语言-动作（VLA）模型正在成为机器人领域的下一代模型。然而，尽管利用了强大的预训练视觉-语言模型（VLM），现有的端到端VLA系统在微调过程中经常会丢失关键能力，因为模型需要适应特定的机器人任务。我们认为，一个通用的VLA模型应该保留并扩展VLM的核心能力：1）开放世界具身推理——VLA应该继承VLM的知识，即识别VLM可以识别的任何事物，能够解决数学问题，并具备视觉-空间智能；2）推理遵循——有效地将开放世界推理转化为机器人可执行的步骤。在这项工作中，我们介绍了ChatVLA-2，一种新颖的混合专家VLA模型，结合专门的两阶段训练流程，旨在保留VLM的原始优势，同时实现可操作的推理。为了验证我们的方法，我们设计了一个数学匹配任务，其中机器人解释白板上书写的数学问题，并从桌子上挑选相应的数字卡片来解决方程式。值得注意的是，我们的方法表现出卓越的数学推理和OCR能力，尽管这些能力并未在VLA中明确训练。此外，我们证明了VLA具有强大的空间推理能力，使其能够解释涉及先前未见物体的新的方向指令。总的来说，我们的方法展示了显著超越最先进的模仿学习方法（如OpenVLA、DexVLA和pi-zero）的推理和理解能力。这项工作代表了在开发真正通用的、具有强大推理能力的机器人基础模型方面的一个重大进步。

🔬 方法详解

问题定义：现有VLA模型在微调过程中容易遗忘预训练VLM的知识，导致模型在开放世界环境下的推理能力下降，无法有效解决复杂的机器人任务。现有方法难以兼顾VLM的通用知识和机器人任务的特定需求。

核心思路：ChatVLA-2的核心思路是设计一种混合专家模型，并采用两阶段训练策略，从而在保留VLM原有知识的基础上，增强模型在机器人任务中的推理和执行能力。通过混合专家模型，可以更好地融合不同领域的知识，提高模型的泛化性。两阶段训练策略则有助于逐步引导模型学习机器人任务相关的技能。

技术框架：ChatVLA-2采用混合专家（Mixture-of-Experts, MoE）架构，包含多个专家模块，每个模块负责处理不同类型的任务或知识。整体流程包括：1）视觉输入编码：使用视觉编码器提取图像特征；2）语言输入编码：使用语言模型编码指令或问题；3）多模态融合：将视觉和语言特征融合；4）专家选择：根据输入选择合适的专家模块；5）动作预测：专家模块输出机器人动作。训练过程分为两个阶段：第一阶段，使用大量VLM数据进行预训练，保留VLM的知识；第二阶段，使用机器人任务数据进行微调，增强模型在特定任务中的性能。

关键创新：ChatVLA-2的关键创新在于混合专家架构和两阶段训练策略的结合。混合专家架构允许模型学习和存储不同领域的知识，从而提高模型的泛化性。两阶段训练策略则有助于在保留VLM知识的同时，增强模型在机器人任务中的性能。此外，该模型在数学匹配任务中展现出的卓越数学推理和OCR能力，以及在空间推理方面的强大能力，也体现了其创新性。

关键设计：在混合专家架构中，专家模块的数量和类型需要根据具体任务进行调整。两阶段训练策略中，预训练阶段的学习率和微调阶段的学习率需要仔细调整，以避免模型遗忘预训练知识或过拟合机器人任务数据。损失函数的设计也至关重要，需要综合考虑模型在不同任务上的性能。

🖼️ 关键图片

📊 实验亮点

ChatVLA-2在数学匹配任务中表现出卓越的数学推理和OCR能力，尽管这些能力并未在VLA中明确训练。此外，该模型在空间推理方面也表现出强大的能力，能够解释涉及先前未见物体的新的方向指令。实验结果表明，ChatVLA-2的推理和理解能力显著超越了OpenVLA、DexVLA和pi-zero等最先进的模仿学习方法。

🎯 应用场景

ChatVLA-2具有广泛的应用前景，例如智能家居服务机器人、工业自动化机器人、医疗辅助机器人等。它可以应用于需要复杂推理和决策的场景，例如根据用户指令完成家务、在工厂中进行产品组装、在医院中辅助医生进行诊断和治疗。该研究的未来影响在于推动通用机器人基础模型的发展，使机器人能够更好地理解和适应人类环境。

📄 摘要（原文）

Vision-language-action (VLA) models have emerged as the next generation of models in robotics. However, despite leveraging powerful pre-trained Vision-Language Models (VLMs), existing end-to-end VLA systems often lose key capabilities during fine-tuning as the model adapts to specific robotic tasks. We argue that a generalizable VLA model should retain and expand upon the VLM's core competencies: 1) Open-world embodied reasoning - the VLA should inherit the knowledge from VLM, i.e., recognize anything that the VLM can recognize, be capable of solving math problems, and possess visual-spatial intelligence, 2) Reasoning following - effectively translating the open-world reasoning into actionable steps for the robot. In this work, we introduce ChatVLA-2, a novel mixture-of-expert VLA model coupled with a specialized two-stage training pipeline designed to preserve the VLM's original strengths while enabling actionable reasoning. To validate our approach, we design a math-matching task wherein a robot interprets math problems written on a whiteboard and picks corresponding number cards from a table to solve equations. Remarkably, our method exhibits exceptional mathematical reasoning and OCR capabilities, despite these abilities not being explicitly trained within the VLA. Furthermore, we demonstrate that the VLA possesses strong spatial reasoning skills, enabling it to interpret novel directional instructions involving previously unseen objects. Overall, our method showcases reasoning and comprehension abilities that significantly surpass state-of-the-art imitation learning methods such as OpenVLA, DexVLA, and pi-zero. This work represents a substantial advancement toward developing truly generalizable robotic foundation models endowed with robust reasoning capacities.

ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理