LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

📄 arXiv: 2604.11689v1 📥 PDF

作者: Dujun Nie, Fengjiao Chen, Qi Lv, Jun Kuang, Xiaoyu Li, Xuezhi Cao, Xunliang Cai

分类: cs.CV, cs.RO

发布日期: 2026-04-13

备注: Project: https://meituan-longcat.github.io/LARYBench Code: https://github.com/meituan-longcat/LARYBench Dataset: https://huggingface.co/datasets/meituan-longcat/LARYBench


💡 一句话要点

LARY:用于可泛化视觉-动作对齐的潜在动作表征基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-动作对齐 潜在动作表征 机器人控制 通用视觉模型 具身智能

📋 核心要点

  1. 现有VLA模型受限于显式动作数据的匮乏,难以充分利用大规模无标签人类动作视频。
  2. LARY基准旨在评估潜在动作表征在连接视觉感知和机器人控制方面的能力,提供统一的评估框架。
  3. 实验表明,通用视觉模型优于专用具身模型,且潜在空间比像素空间更适合视觉-动作对齐。

📝 摘要(中文)

针对视觉-语言-动作(VLA)模型缺乏显式动作数据的问题,本文提出利用大规模人类动作视频作为可扩展但无标签的数据源。关键挑战在于将视觉信号转化为本体无关的表征,即潜在动作。为了严格评估潜在动作表征从视觉观察中推导鲁棒控制的能力,我们引入了潜在动作表征生成(LARY)基准,这是一个统一的框架,用于评估高层语义动作(做什么)和低层机器人控制(如何做)上的潜在动作表征。该数据集包含超过一百万个视频(1000小时),涵盖151个动作类别,以及62万个图像对和59.5万个跨不同形态和环境的运动轨迹。实验结果表明:(i)未经任何动作监督训练的通用视觉基础模型始终优于专门的具身潜在动作模型。(ii)基于潜在的视觉空间比基于像素的空间更有效地与物理动作空间对齐。这些结果表明,通用视觉表征固有地编码了与物理控制相关的动作知识,并且语义级别的抽象比像素级别的重建更有效地连接视觉和动作。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型训练依赖于大量的显式动作数据,而这些数据往往难以获取。大规模的人类动作视频虽然易于获取,但缺乏标签,如何有效利用这些无标签数据成为一个挑战。现有方法难以将视觉信号转化为与具体动作本体无关的、通用的潜在动作表征,并且缺乏对这些潜在表征在机器人控制等任务中性能的系统评估。

核心思路:本文的核心思路是通过学习一种与具体动作类别无关的潜在动作表征,从而将视觉信息转化为可用于控制的抽象表示。这种潜在表征能够捕捉动作的本质特征,而无需依赖于预定义的动作标签。通过在统一的基准上评估不同潜在动作表征的性能,可以更好地理解视觉信息与物理动作之间的关系。

技术框架:LARY基准包含一个大规模的视频数据集,涵盖多种动作类别、形态和环境。该基准提供了一个统一的评估框架,用于评估潜在动作表征在高层语义动作识别和低层机器人控制任务中的性能。评估流程通常包括:1) 使用视觉编码器将视频帧或图像对编码为潜在动作表征;2) 使用该表征训练或控制机器人执行相应的动作;3) 评估机器人动作的准确性和效率。

关键创新:LARY基准的关键创新在于其大规模、多样性和统一的评估框架。它提供了一个标准化的平台,用于比较不同的潜在动作表征学习方法,并促进了视觉-动作对齐领域的研究。此外,该研究发现通用视觉模型在学习潜在动作表征方面表现出色,这表明预训练的视觉知识对于机器人控制至关重要。

关键设计:LARY基准的数据集包含超过一百万个视频,涵盖151个动作类别。评估指标包括动作识别准确率、机器人控制成功率和轨迹相似度等。研究人员可以使用不同的视觉编码器(例如,ResNet、ViT)来提取视觉特征,并使用不同的控制算法(例如,PID控制、强化学习)来控制机器人。关键在于如何设计损失函数,使得学习到的潜在动作表征能够有效地捕捉动作的本质特征,并能够泛化到不同的环境和形态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,未经任何动作监督训练的通用视觉基础模型(如CLIP)在LARY基准上始终优于专门的具身潜在动作模型。此外,基于潜在的视觉空间比基于像素的空间更有效地与物理动作空间对齐。例如,CLIP在机器人控制任务上的成功率显著高于基于像素重建的方法。

🎯 应用场景

该研究成果可应用于机器人控制、自动化、虚拟现实等领域。通过学习通用的潜在动作表征,可以使机器人更好地理解人类的意图,并执行复杂的任务。此外,该基准可以促进视觉-语言-动作模型的发展,使其能够更好地理解和生成人类动作。

📄 摘要(原文)

While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.