Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild

📄 arXiv: 2602.21736v1 📥 PDF

作者: Hao Luo, Ye Wang, Wanpeng Zhang, Haoqi Yuan, Yicheng Feng, Haiweng Xu, Sipeng Zheng, Zongqing Lu

分类: cs.RO

发布日期: 2026-02-25

备注: CVPR2026


💡 一句话要点

提出JALA:通过联合对齐潜在动作,实现野外场景下可扩展的VLA预训练。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 VLA预训练 潜在动作空间 逆动力学 机器人操作

📋 核心要点

  1. 现有VLA模型受限于机器人数据的稀缺,而利用人类操作视频面临手部跟踪标签不可靠的问题。
  2. JALA通过学习与逆动力学和真实动作对齐的预测动作嵌入,构建过渡感知、行为中心的潜在空间。
  3. JALA在UniHand-Mix数据集上进行预训练,并在下游机器人操作任务中显著提升了性能,验证了其有效性。

📝 摘要(中文)

视觉-语言-动作模型(VLA)的发展受到大规模、多样化机器人数据的限制。虽然人类操作视频提供了一个丰富的替代方案,但现有方法被迫在小型、精确标记的数据集和具有不可靠手部跟踪标签的大量野外镜头之间做出选择。我们提出了JALA,一个学习联合对齐潜在动作的预训练框架。JALA绕过了完整的视觉动态重建,而是学习一个与逆动力学和真实动作对齐的预测动作嵌入。这产生了一个过渡感知、以行为为中心的潜在空间,用于从异构人类数据中学习。我们使用UniHand-Mix(一个包含750万个视频(>2000小时)的语料库,混合了实验室和野外镜头)来扩展这种方法。实验表明,JALA在受控和非约束场景中生成更逼真的手部运动,显著提高了模拟和真实世界任务中的下游机器人操作性能。这些结果表明,联合对齐的潜在动作为从人类数据进行VLA预训练提供了一条可扩展的途径。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型缺乏大规模、多样化的机器人数据,难以有效学习。直接利用人类操作视频进行预训练面临手部跟踪标签质量差的问题,导致模型难以准确理解和模仿人类动作。现有方法要么依赖小规模、精确标注的数据集,要么直接使用大规模但噪声大的野外数据,难以兼顾数据规模和质量。

核心思路:JALA的核心思路是通过学习一个联合对齐的潜在动作空间来解决上述问题。该潜在空间能够同时反映逆动力学信息(即动作与状态变化的关系)和真实动作信息,从而实现对人类动作的有效建模。通过这种方式,JALA可以绕过对精确手部跟踪标签的依赖,直接从大规模、异构的人类数据中学习。

技术框架:JALA的整体框架包含以下几个主要模块:1) 视觉编码器:用于提取视频帧的视觉特征。2) 动作预测器:用于预测给定视觉特征的潜在动作嵌入。3) 逆动力学模型:用于预测给定当前状态和潜在动作嵌入的下一个状态。4) 对齐模块:用于将预测的潜在动作嵌入与真实动作进行对齐。整个框架通过最小化逆动力学模型的预测误差和潜在动作嵌入与真实动作之间的差异来进行训练。

关键创新:JALA的关键创新在于提出了联合对齐潜在动作的概念。与传统的视觉动态重建方法不同,JALA不直接重建完整的视觉动态,而是学习一个与逆动力学和真实动作对齐的潜在动作嵌入。这种方法能够有效地利用大规模、异构的人类数据,并避免了对精确手部跟踪标签的依赖。

关键设计:JALA的关键设计包括:1) 使用对比学习损失来对齐潜在动作嵌入和真实动作。2) 使用Transformer网络作为动作预测器和逆动力学模型,以捕捉动作序列中的长期依赖关系。3) 使用UniHand-Mix数据集进行预训练,该数据集包含实验室和野外场景下的手部操作视频,具有大规模和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JALA在手部动作生成方面优于现有方法,能够生成更逼真的手部运动。在下游机器人操作任务中,JALA显著提高了机器人在模拟和真实环境中的性能。例如,在真实世界任务中,JALA相比基线方法取得了显著的性能提升(具体数值未知),验证了其有效性。

🎯 应用场景

JALA的研究成果可应用于机器人操作、人机交互、虚拟现实等领域。通过学习人类的操作技能,机器人可以更好地完成各种任务,例如家庭服务、工业生产、医疗辅助等。此外,JALA还可以用于生成逼真的人类动作动画,提升虚拟现实和游戏体验。未来,该技术有望进一步发展,实现更智能、更自然的机器人行为。

📄 摘要(原文)

Despite progress, Vision-Language-Action models (VLAs) are limited by a scarcity of large-scale, diverse robot data. While human manipulation videos offer a rich alternative, existing methods are forced to choose between small, precisely-labeled datasets and vast in-the-wild footage with unreliable hand tracking labels. We present JALA, a pretraining framework that learns Jointly-Aligned Latent Actions. JALA bypasses full visual dynamic reconstruction, instead learns a predictive action embedding aligned with both inverse dynamics and real actions. This yields a transition-aware, behavior-centric latent space for learning from heterogeneous human data. We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000 hours) blending laboratory and in-the-wild footage. Experiments demonstrate that JALA generates more realistic hand motions in both controlled and unconstrained scenarios, significantly improving downstream robot manipulation performance in both simulation and real-world tasks. These results indicate that jointly-aligned latent actions offer a scalable pathway for VLA pretraining from human data.