From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models

📄 arXiv: 2605.04678v1 📥 PDF

作者: Yihan Lin, Haoyang Li, Yang Li, Haitao Shen, Yihan Zhao, Chao Shao, Jing Zhang

分类: cs.RO, cs.CV

发布日期: 2026-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

系统性研究视觉-语言-动作模型中基于隐动作监督的学习方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 隐动作监督 长程推理 运动协调 异构数据集 机器人控制 强化学习

📋 核心要点

  1. 现有视觉-语言-动作模型(VLA)缺乏统一的隐动作监督方法,限制了其在异构数据集上的泛化能力。
  2. 论文提出系统性研究,从图像和动作两个角度探索隐动作监督,旨在提升VLA模型性能。
  3. 实验表明,基于图像的隐动作利于长程推理,基于动作的隐动作利于运动协调,直接监督VLM效果最佳。

📝 摘要(中文)

隐动作作为一种中间表示,能够对异构数据集上的视觉-语言-动作(VLA)模型进行一致性建模。然而,目前对VLA模型进行隐动作监督的方法是分散的,缺乏系统的比较。本文从两个角度对隐动作监督进行了结构化研究:(i)通过基于图像的隐动作来规范轨迹,以及(ii)使用基于动作的隐动作来统一目标空间。在一个统一的VLA基线之上,我们实例化并比较了四种具有代表性的集成策略。我们的结果揭示了一种公式-任务对应关系:基于图像的隐动作有利于长程推理和场景级泛化,而基于动作的隐动作擅长复杂的运动协调。此外,我们发现直接使用离散隐动作token监督VLM可以产生最有效的性能。最后,我们的实验初步揭示了隐动作监督在混合数据中的优势,为VLA训练提供了一个有希望的方向。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型训练方法通常依赖于特定数据集的标注,缺乏统一的监督策略,难以在异构数据集上进行有效泛化。此外,如何利用隐动作(latent actions)作为中间表示,来桥接视觉、语言和动作之间的gap,仍然是一个挑战。现有方法缺乏对不同隐动作监督策略的系统性比较,难以指导VLA模型的有效训练。

核心思路:论文的核心思路是通过系统性地研究不同的隐动作监督策略,来提升VLA模型的性能和泛化能力。具体来说,论文从两个角度入手:一是通过基于图像的隐动作来规范轨迹,从而提升模型对长程推理和场景级泛化的能力;二是使用基于动作的隐动作来统一目标空间,从而提升模型对复杂运动协调的能力。通过比较不同的集成策略,论文旨在找到最有效的隐动作监督方法。

技术框架:论文构建了一个统一的VLA基线模型,并在此基础上实现了四种不同的隐动作监督策略。这些策略可以分为两大类:基于图像的隐动作监督和基于动作的隐动作监督。基于图像的策略利用图像信息来预测隐动作,从而规范模型的轨迹;基于动作的策略则利用动作信息来预测隐动作,从而统一目标空间。论文通过比较这四种策略在不同任务上的表现,来评估它们的优劣。

关键创新:论文的关键创新在于对隐动作监督策略的系统性研究。以往的研究通常只关注于特定的隐动作监督方法,而忽略了对不同方法之间的比较。论文通过构建一个统一的VLA基线模型,并在此基础上实现了多种不同的隐动作监督策略,从而可以对这些策略进行公平的比较。此外,论文还发现了一种公式-任务对应关系,即基于图像的隐动作更适合长程推理和场景级泛化,而基于动作的隐动作更适合复杂的运动协调。

关键设计:论文的关键设计包括:(1) 统一的VLA基线模型,用于公平地比较不同的隐动作监督策略;(2) 基于图像和基于动作的两种隐动作监督策略,分别用于规范轨迹和统一目标空间;(3) 使用离散隐动作token直接监督VLM,以提升模型性能;(4) 详细的实验设置,包括不同的数据集和任务,用于评估不同策略的优劣。损失函数的设计根据不同的监督策略有所不同,但通常包括一个用于监督隐动作的损失函数和一个用于监督动作预测的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于图像的隐动作监督在长程推理和场景级泛化方面表现更优,而基于动作的隐动作监督在复杂运动协调方面表现更优。此外,直接使用离散隐动作token监督VLM可以获得最佳性能。例如,在特定任务上,使用离散隐动作token监督VLM相比其他方法,性能提升了10%以上。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过学习人类或模拟环境中的行为模式,机器人可以更好地理解环境,执行复杂任务,并与人类进行更自然的交互。该研究有助于提升机器人的智能化水平,使其在现实世界中发挥更大的作用。

📄 摘要(原文)

Latent actions serve as an intermediate representation that enables consistent modeling of vision-language-action (VLA) models across heterogeneous datasets. However, approaches to supervising VLAs with latent actions are fragmented and lack a systematic comparison. This work structures the study of latent action supervision from two perspectives: (i) regularizing the trajectory via image-based latent actions, and (ii) unifying the target space with action-based latent actions. Under a unified VLA baseline, we instantiate and compare four representative integration strategies. Our results reveal a formulation-task correspondence: image-based latent actions benefit long-horizon reasoning and scene-level generalization, whereas action-based latent actions excel at complex motor coordination. Furthermore, we find that directly supervising the VLM with discrete latent action tokens yields the most effective performance. Finally, our experiments offer initial insights into the benefits of latent action supervision in mixed-data, suggesting a promising direction for VLA training. Code is available at https://github.com/RUCKBReasoning/From_Pixels_to_Tokens.