Grounding Hierarchical Vision-Language-Action Models Through Explicit Language-Action Alignment

📄 arXiv: 2604.05614v1 📥 PDF

作者: Theodor Wulff, Federico Tavella, Rahul Singh Maharjan, Manith Adikari, Angelo Cangelosi

分类: cs.RO

发布日期: 2026-04-07


💡 一句话要点

提出一种显式语言-动作对齐的层级视觉-语言-动作模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人透明性 语言-动作对齐 对比学习 离线偏好学习

📋 核心要点

  1. 现有层级视觉-语言-动作模型缺乏训练过程中语言和动作之间的显式对齐,导致机器人透明性不足。
  2. 提出一种新的训练框架,通过对比模型评估语言和动作轨迹的对齐程度,并使用离线偏好学习优化 grounding。
  3. 在LanguageTable数据集上验证了框架的有效性,性能与全监督微调相当,且减少了对数据标注的需求。

📝 摘要(中文)

为了实现机器人透明性,使其自然语言交流与其行为一致,并显式地与任务和环境相关联,本文提出了一种新的训练框架。该框架针对层级视觉-语言-动作(VLA)模型,通过显式地将VLA子任务描述与视觉观察和动作空间对齐来实现上述目标。具体而言,该框架使用对比模型来评估生成的语言和相应动作轨迹之间的对齐程度。该对比模型能够直接根据对齐程度对不同的语言-轨迹对进行排序,从而通过离线偏好学习来优化层级VLA的 grounding。该框架应用于LanguageTable数据集,这是一个人工语言标注轨迹的基准数据集,并提供了对多模态 grounding 表示的关键见解,同时建立了一个强大的基线,其性能与完全监督的微调相当,并最大限度地减少了对昂贵数据注释的需求。

🔬 方法详解

问题定义:现有层级视觉-语言-动作(VLA)模型虽然能够生成语言和低级动作,但缺乏在训练过程中对语言和动作之间进行显式对齐。这导致机器人行为的透明度不足,难以实现有效的人机协作。现有方法依赖大量标注数据进行训练,成本高昂。

核心思路:本文的核心思路是通过对比学习,显式地评估生成的语言描述和对应的动作轨迹之间的对齐程度。通过这种方式,模型能够学习到更好的多模态 grounding 表示,从而提高机器人行为的透明性和可解释性。通过离线偏好学习,可以进一步优化语言和动作的对齐,而无需额外的标注数据。

技术框架:该框架包含以下几个主要模块:1) 层级VLA模型,用于生成语言描述和执行动作;2) 对比模型,用于评估语言描述和动作轨迹之间的对齐程度;3) 离线偏好学习模块,用于根据对比模型的输出,优化VLA模型的参数。整体流程是:VLA模型生成语言和动作,对比模型评估对齐程度,偏好学习模块根据评估结果更新VLA模型。

关键创新:最重要的技术创新点在于引入了对比模型来显式地评估语言和动作之间的对齐程度。与现有方法相比,该方法不需要额外的标注数据,并且能够更有效地学习到多模态 grounding 表示。通过离线偏好学习,可以进一步优化语言和动作的对齐,从而提高机器人行为的透明性和可解释性。

关键设计:对比模型的设计至关重要,它需要能够有效地捕捉语言描述和动作轨迹之间的语义关系。具体实现可能涉及使用 Transformer 网络来编码语言描述和动作轨迹,并使用对比损失函数来训练模型,使得对齐的语言-动作对的相似度高于未对齐的语言-动作对。离线偏好学习模块可以使用强化学习算法,例如 PPO,来优化VLA模型的参数,目标是最大化对比模型的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在LanguageTable数据集上取得了与全监督微调相当的性能,同时显著减少了对数据标注的需求。这表明该方法能够有效地学习到多模态 grounding 表示,并提高机器人行为的透明性和可解释性。该研究为未来的多模态学习研究提供了一个有价值的基线。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如:辅助机器人、工业机器人、服务机器人等。通过提高机器人行为的透明性和可解释性,可以增强人类对机器人的信任,从而实现更高效、更安全的人机协作。此外,该方法还可以应用于其他多模态学习任务,例如:视频描述生成、图像文本检索等。

📄 摘要(原文)

Achieving robot transparency is a critical step toward effective human-robot collaboration. To be transparent, a robot's natural language communication must be consistent with its actions and explicitly grounded in the task and environment. Existing hierarchical Vision-Language-Action (VLA) models can generate language (e.g., through chain-of-thought) and low-level actions. However, current work does not consider explicit alignment between these modalities during training. To address this crucial gap, we propose a novel training framework that explicitly grounds hierarchical VLA sub-task descriptions with respect to the visual observation and action space. Our framework uses a contrastive model to assess the alignment between generated language and corresponding action trajectories. This contrastive model enables direct ranking of different language-trajectory pairs based on their alignment, allowing us to refine the grounding of our hierarchical VLA through offline preference learning. We apply our framework to the LanguageTable dataset, a benchmark dataset of human language-annotated trajectories, and provide critical insights into multimodal grounding representations, all while establishing a strong baseline that achieves performance comparable to fully supervised fine-tuning and minimizing the need for costly data annotations.