HARP-VLA: Human-Robot Aligned Representation Learning for Vision-Language-Action Model
作者: Xiang Zhu, Puzhen Yuan, Yichen Liu, Jianyu Chen
分类: cs.RO
发布日期: 2026-05-29
💡 一句话要点
提出HARP框架,解决人-机器人视觉表征对齐问题,提升VLA模型性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉表征学习 人-机器人协作 跨具身学习 视觉-语言-动作模型 机器人操作
📋 核心要点
- 现有VLA模型在人类视频上预训练时,由于人与机器人在视觉和动作上的差异,导致泛化能力受限。
- HARP框架利用配对和未配对的人-机器人数据,学习对齐的视觉表征和潜在动作模型,弥合跨具身差异。
- 实验表明,HARP能有效提升人-机器人视觉对齐,并在仿真和真实机器人操作任务中显著提高策略性能。
📝 摘要(中文)
本文提出HARP框架,旨在解决视觉-语言-动作(VLA)模型从大规模人类视频中学习时,由于视觉观察和可执行动作的跨具身差异而导致的泛化性问题。HARP利用有限的配对人-机器人演示作为跨具身桥梁,并利用大量未配对的人和机器人视频作为可扩展的动态监督数据源。该框架训练一个机器人适配的视觉编码器和一个潜在动作模型,结合以操纵为中心的辅助线索和一个源相对的配对判别对齐损失,使机器人表征适应人类语义,同时保持配对级别的区分性。学习到的对齐视觉编码器和潜在动作模型为VLA风格的策略学习提供统一的视觉和动作表征,其中人类和机器人视频提供视觉-语言到潜在动作的监督,轻量级的机器人动作头将潜在动作转化为可执行命令。在特征可视化、仿真和真实世界操作上的实验表明,HARP提高了人-机器人对齐和下游策略性能,在CALVIN ABC→D上实现了4.481的平均长度,并在真实世界成功率上比最强的基线提高了7.1%。
🔬 方法详解
问题定义:论文旨在解决视觉-语言-动作(VLA)模型在跨具身场景下的泛化性问题。具体来说,当VLA模型从人类视频中学习后,直接应用于机器人时,由于人类和机器人在视觉观察(例如视角、外观)和可执行动作上的差异,会导致性能下降。现有的潜在动作模型虽然能减少动作执行上的差距,但仍然依赖于视觉特征,因此视觉表征的错位会进一步影响性能。
核心思路:论文的核心思路是通过学习人-机器人对齐的视觉表征来解决上述问题。具体而言,利用少量配对的人-机器人演示作为桥梁,将机器人的视觉表征向人类的视觉语义空间对齐。同时,利用大量未配对的人和机器人视频作为动态监督数据,增强模型的泛化能力。通过这种方式,模型能够学习到与具身无关的视觉表征,从而更好地适应不同的机器人平台。
技术框架:HARP框架包含以下几个主要模块:1) 机器人适配的视觉编码器:用于提取机器人视频的视觉特征。2) 潜在动作模型:用于学习动作的抽象表示。3) 操纵中心辅助线索:用于提供额外的监督信息,例如物体的位置和姿态。4) 源相对的配对判别对齐损失:用于将机器人的视觉表征向人类的视觉语义空间对齐。整体流程是,首先使用配对和未配对的人-机器人视频训练视觉编码器和潜在动作模型,然后将学习到的视觉编码器和潜在动作模型用于VLA风格的策略学习。
关键创新:论文最重要的技术创新点在于提出了源相对的配对判别对齐损失。该损失函数能够有效地将机器人的视觉表征向人类的视觉语义空间对齐,同时保持配对级别的区分性。与传统的对齐方法相比,该方法能够更好地处理跨具身差异,并提高模型的泛化能力。
关键设计:在损失函数设计上,采用了源相对的配对判别对齐损失,具体形式未知(论文未详细描述)。在网络结构上,视觉编码器和潜在动作模型的具体结构未知。在数据使用上,使用了少量配对的人-机器人演示和大量未配对的人和机器人视频。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HARP框架能够有效提高人-机器人视觉对齐,并在仿真和真实机器人操作任务中显著提高策略性能。在CALVIN ABC→D上实现了4.481的平均长度,并在真实世界成功率上比最强的基线提高了7.1%。这些结果表明,HARP框架具有很强的实用价值。
🎯 应用场景
该研究成果可应用于各种需要人-机器人协作的场景,例如智能制造、家庭服务、医疗康复等。通过学习人-机器人对齐的视觉表征,机器人能够更好地理解人类的意图,并执行相应的任务。该研究有助于提高机器人的智能化水平,促进人-机器人协作的广泛应用。
📄 摘要(原文)
Learning generalizable vision-language-action (VLA) models from large-scale human videos is promising but challenging due to cross-embodiment discrepancies in both visual observations and executable actions. While latent action models reduce the action execution gap by learning action abstractions, they still rely on visual features. Thus, misaligned human and robot visual representations can lead to inconsistencies in policy inputs and induce domain-dependent latent actions, hindering effective co-training with human videos. To address this, we propose HARP, a human-robot aligned representation learning framework for more effective VLA pretraining from human videos. Specifically, HARP uses limited paired human-robot demonstrations as cross-embodiment bridges and abundant unpaired human and robot videos as a scalable dynamics supervision data source. It trains a robot-adapted visual encoder and a latent action model with manipulation-centric auxiliary cues and a source-relative pair-discriminative alignment loss, which adapts robot representations toward human semantics while preserving pair-level discrimination. The learned aligned vision encoder and latent action model provide a unified vision and action representation for VLA-style policy learning, where human and robot videos provide vision-language-to-latent-action supervision and a lightweight robot action head grounds latent actions into executable commands. Experiments on feature visualization, simulation, and realworld manipulation show improved human-robot alignment and downstream policy performance, achieving 4.481 average length on CALVIN ABC$\rightarrow$D and a 7.1\% realworld success rate gain over the strongest baseline.