Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline

📄 arXiv: 2602.22663 📥 PDF

作者: Wenxuan Song, Jiayi Chen, Xiaoquan Sun, Huashuo Lei, Yikai Qin, Wei Zhao, Pengxiang Ding, Han Zhao, Tongxin Wang, Pengxu Hou, Zhide Zhong, Haodong Yan, Donglin Wang, Jun Ma, Haoang Li

分类: cs.RO

发布日期: 2026-02-28


💡 一句话要点

提出CEBench基准和LLaVA-VLA模型,提升VLA模型在机器人领域的实用性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人 基准测试 轻量级模型 多模态学习

📋 核心要点

  1. 现有VLA模型参数量大、预训练成本高,且难以应用于多种机器人形态,限制了其在实际场景中的应用。
  2. 论文提出CEBench基准测试,并设计了轻量级的LLaVA-VLA模型,采用两阶段训练策略,无需昂贵的预训练。
  3. 实验表明LLaVA-VLA具有良好的泛化性和通用性,并在真实世界的移动操作任务中取得了成功,成为首个端到端VLA模型。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为通用机器人代理。然而,现有的VLA模型受到参数规模过大、预训练要求过高以及对不同机器人的适用性有限等问题的阻碍。为了提高VLA的实用性,我们提出了一个全面的基准和一个改进的基线模型。首先,我们提出了CEBench,这是一个新的基准,涵盖了模拟和真实世界中具有领域随机化的各种机器人。我们收集了1.44万条模拟轨迹和1.6千条真实世界专家策划的轨迹,以支持CEBench上的训练。其次,使用CEBench作为我们的试验台,我们研究了VLA实用性的三个关键方面,并提供了一些关键发现。根据这些发现,我们引入了LLaVA-VLA,这是一个轻量级但功能强大的VLA,专为在消费级GPU上进行实际部署而设计。在架构上,它集成了紧凑的VLM骨干网络与多视角感知、本体感受标记化和动作分块。为了消除对昂贵预训练的依赖,LLaVA-VLA采用了一种包括后训练和微调的两阶段训练范式。此外,LLaVA-VLA扩展了动作空间,以统一导航和操作。跨机器人的实验证明了LLaVA-VLA的泛化和通用能力,而真实世界的移动操作实验将其确立为第一个用于移动操作的端到端VLA模型。我们将在接受后开源所有数据集、代码和检查点,以促进可重复性和未来的研究。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型通常参数量巨大,需要大量的预训练数据,并且难以适应不同类型的机器人平台。这些问题限制了VLA模型在实际机器人应用中的部署和使用。因此,需要一种更轻量级、更易于训练且具有良好泛化能力的VLA模型。

核心思路:论文的核心思路是设计一个轻量级的VLA模型,并采用一种无需大量预训练数据的训练方法。通过结合紧凑的视觉-语言模型(VLM)骨干网络、多视角感知、本体感受标记化和动作分块等技术,降低模型的复杂度。同时,采用两阶段训练范式,包括后训练和微调,以消除对昂贵预训练的依赖。

技术框架:LLaVA-VLA模型的技术框架主要包括以下几个模块: 1. 紧凑的VLM骨干网络:用于处理视觉和语言输入。 2. 多视角感知:利用多个摄像头获取环境信息,提高感知能力。 3. 本体感受标记化:将机器人的自身状态信息转换为token,输入模型。 4. 动作分块:将复杂的动作分解为更小的动作单元,简化动作空间。 5. 两阶段训练范式:首先进行后训练,然后进行微调,以提高模型的性能。

关键创新:论文的关键创新在于: 1. 轻量级模型设计:通过采用紧凑的VLM骨干网络和模块化设计,降低了模型的参数量。 2. 无需预训练的训练方法:采用两阶段训练范式,避免了对大量预训练数据的依赖。 3. 统一的动作空间:扩展了动作空间,统一了导航和操作任务。

关键设计: 1. 多视角感知:具体实现方式未知,但强调了多视角信息融合的重要性。 2. 本体感受标记化:将机器人的关节角度、速度等信息转换为token,具体转换方法未知。 3. 动作分块:将动作空间离散化为多个动作单元,具体划分方式未知。 4. 损失函数:论文中未明确提及具体的损失函数设计,但推测可能使用了交叉熵损失或类似的损失函数来训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LLaVA-VLA模型在多个机器人平台上进行了实验验证,结果表明该模型具有良好的泛化性和通用性。特别是在真实世界的移动操作实验中,LLaVA-VLA成功地完成了复杂的任务,证明了其在实际应用中的可行性。具体性能数据和对比基线未在摘要中给出,需参考论文全文。

🎯 应用场景

该研究成果可应用于各种机器人应用场景,例如家庭服务机器人、工业机器人、物流机器人等。通过使用轻量级的LLaVA-VLA模型,可以在资源受限的平台上实现高性能的视觉-语言-动作控制,从而提高机器人的智能化水平和应用范围。未来,该研究可以进一步扩展到更复杂的机器人任务和环境。

📄 摘要(原文)

Vision-Language-Action (VLA) models have emerged as a generalist robotic agent. However, existing VLAs are hindered by excessive parameter scales, prohibitive pre-training requirements, and limited applicability to diverse embodiments. To improve the practicality of VLAs, we propose a comprehensive benchmark and an improved baseline. First, we propose CEBench, a new benchmark spanning diverse embodiments in both simulation and the real world with consideration of domain randomization. We collect 14.4k simulated trajectories and 1.6k real-world expert-curated trajectories to support training on CEBench. Second, using CEBench as our testbed, we study three critical aspects of VLAs' practicality and offer several key findings. Informed by these findings, we introduce LLaVA-VLA, a lightweight yet powerful VLA designed for practical deployment on consumer-grade GPUs. Architecturally, it integrates a compact VLM backbone with multi-view perception, proprioceptive tokenization, and action chunking. To eliminate reliance on costly pre-training, LLaVA-VLA adopts a two-stage training paradigm including post-training and fine-tuning. Furthermore, LLaVA-VLA extends the action space to unify navigation and manipulation. Experiments across embodiments demonstrate the capabilities of generalization and versatility of LLaVA-VLA , while real-world mobile manipulation experiments establish it as the first end-to-end VLA model for mobile manipulation. We will open-source all datasets, codes, and checkpoints upon acceptance to foster reproducibility and future research.