Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline

作者: Wenxuan Song, Jiayi Chen, Xiaoquan Sun, Huashuo Lei, Yikai Qin, Wei Zhao, Pengxiang Ding, Han Zhao, Tongxin Wang, Pengxu Hou, Zhide Zhong, Haodong Yan, Donglin Wang, Jun Ma, Haoang Li

分类: cs.RO

发布日期: 2026-02-26

备注: Accepted by ICRA 2026

💡 一句话要点

提出CEBench基准和LLaVA-VLA模型，提升VLA模型在机器人领域的实用性。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人 基准测试 轻量级模型 移动操作

📋 核心要点

现有VLA模型参数量大、预训练成本高，且难以应用于多种机器人形态，限制了其在实际场景中的应用。
论文提出CEBench基准测试，并设计了轻量级的LLaVA-VLA模型，采用两阶段训练和统一的动作空间，降低了模型复杂度和训练成本。
实验表明，LLaVA-VLA在不同机器人上具有良好的泛化能力和通用性，并在真实世界的移动操作任务中取得了成功。

📝 摘要（中文）

视觉-语言-动作(VLA)模型已成为通用机器人代理。然而，现有的VLA模型受到过大的参数规模、过高的预训练要求以及对不同机器人的有限适用性的阻碍。为了提高VLA的实用性，我们提出了一个全面的基准和一个改进的基线。首先，我们提出了CEBench，这是一个新的基准，涵盖了模拟和真实世界中具有领域随机化的各种机器人。我们收集了1.44万条模拟轨迹和1.6千条真实世界专家策划的轨迹，以支持在CEBench上进行训练。其次，使用CEBench作为我们的试验台，我们研究了VLA实用性的三个关键方面，并提供了一些关键发现。根据这些发现，我们引入了LLaVA-VLA，这是一种轻量级但功能强大的VLA，专为在消费级GPU上进行实际部署而设计。在架构上，它集成了紧凑的VLM骨干网络与多视角感知、本体感受标记化和动作分块。为了消除对昂贵预训练的依赖，LLaVA-VLA采用了一种包括后训练和微调的两阶段训练范式。此外，LLaVA-VLA扩展了动作空间，以统一导航和操作。跨机器人的实验证明了LLaVA-VLA的泛化和通用能力，而真实世界的移动操作实验将其确立为第一个用于移动操作的端到端VLA模型。我们将在接受后开源所有数据集、代码和检查点，以促进可重复性和未来的研究。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型在实际应用中面临参数规模过大、预训练成本高昂以及对不同机器人形态的适应性不足等问题。这些问题限制了VLA模型在真实机器人任务中的部署和应用，例如移动操作等。

核心思路：论文的核心思路是设计一个轻量级且易于训练的VLA模型，同时构建一个更具代表性和挑战性的基准测试，以促进VLA模型在实际机器人任务中的应用。通过降低模型复杂度、减少对大规模预训练数据的依赖，并提高模型对不同机器人形态的泛化能力，从而提升VLA模型的实用性。

技术框架：LLaVA-VLA的技术框架主要包括以下几个模块：1)紧凑的视觉-语言模型(VLM)骨干网络；2)多视角感知模块，用于融合来自不同视角的图像信息；3)本体感受标记化模块，用于将机器人的自身状态信息转换为可处理的token；4)动作分块模块，用于将复杂的动作分解为更小的动作单元；5)两阶段训练范式，包括后训练和微调阶段。整体流程是，首先通过VLM骨干网络提取视觉和语言特征，然后通过多视角感知和本体感受标记化模块融合环境和自身状态信息，最后通过动作分块模块生成动作指令。

关键创新：论文的关键创新点在于：1)提出了CEBench基准测试，该基准涵盖了模拟和真实世界中具有领域随机化的各种机器人，更贴近实际应用场景；2)设计了轻量级的LLaVA-VLA模型，该模型在保持性能的同时，显著降低了参数规模和训练成本；3)采用了两阶段训练范式，避免了对大规模预训练数据的依赖；4)扩展了动作空间，统一了导航和操作任务。

关键设计：LLaVA-VLA的关键设计包括：1)使用紧凑的VLM骨干网络，例如LLaVA等，以降低模型复杂度；2)采用多视角感知模块，融合来自不同视角的图像信息，提高环境感知能力；3)设计本体感受标记化模块，将机器人的自身状态信息转换为可处理的token，例如关节角度、速度等；4)使用动作分块模块，将复杂的动作分解为更小的动作单元，简化动作生成过程；5)采用两阶段训练范式，首先进行后训练，然后进行微调，以提高模型性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLaVA-VLA在CEBench基准测试中取得了显著的性能提升，并在不同机器人上展现出良好的泛化能力和通用性。特别是在真实世界的移动操作实验中，LLaVA-VLA成功地完成了复杂的任务，证明了其在实际应用中的潜力。与现有VLA模型相比，LLaVA-VLA在参数规模和训练成本方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种机器人领域，例如移动操作、家庭服务机器人、工业自动化等。通过降低VLA模型的复杂度和训练成本，可以促进VLA模型在实际机器人任务中的部署和应用，从而提高机器人的智能化水平和服务能力。未来，该研究可以进一步扩展到更复杂的机器人任务和更广泛的应用场景。

📄 摘要（原文）

Vision-Language-Action (VLA) models have emerged as a generalist robotic agent. However, existing VLAs are hindered by excessive parameter scales, prohibitive pre-training requirements, and limited applicability to diverse embodiments. To improve the practicality of VLAs, we propose a comprehensive benchmark and an improved baseline. First, we propose CEBench, a new benchmark spanning diverse embodiments in both simulation and the real world with consideration of domain randomization. We collect 14.4k simulated trajectories and 1.6k real-world expert-curated trajectories to support training on CEBench. Second, using CEBench as our testbed, we study three critical aspects of VLAs' practicality and offer several key findings. Informed by these findings, we introduce LLaVA-VLA, a lightweight yet powerful VLA designed for practical deployment on consumer-grade GPUs. Architecturally, it integrates a compact VLM backbone with multi-view perception, proprioceptive tokenization, and action chunking. To eliminate reliance on costly pre-training, LLaVA-VLA adopts a two-stage training paradigm including post-training and fine-tuning. Furthermore, LLaVA-VLA extends the action space to unify navigation and manipulation. Experiments across embodiments demonstrate the capabilities of generalization and versatility of LLaVA-VLA , while real-world mobile manipulation experiments establish it as the first end-to-end VLA model for mobile manipulation. We will open-source all datasets, codes, and checkpoints upon acceptance to foster reproducibility and future research.

Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理