HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy

📄 arXiv: 2510.00695v2 📥 PDF

作者: Myungkyu Koo, Daewon Choi, Taeyoung Kim, Kyungmin Lee, Changyeon Kim, Younggyo Seo, Jinwoo Shin

分类: cs.RO, cs.CV

发布日期: 2025-10-01 (更新: 2025-10-02)

备注: Project page: https://myungkyukoo.github.io/hamlet/


💡 一句话要点

HAMLET:将视觉-语言-动作模型转化为历史感知策略,提升机器人操作性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 历史感知 机器人操作 时间对比学习 记忆模块

📋 核心要点

  1. 现有视觉-语言-动作模型(VLA)主要依赖当前观测,忽略了历史上下文,这限制了其在依赖历史信息的任务中的表现。
  2. HAMLET通过引入时刻令牌和轻量级记忆模块,使VLA能够关注历史上下文,从而进行更准确的动作预测。
  3. 实验表明,HAMLET在长时程任务和通用机器人操作基准测试中均取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

本文提出HAMLET,一个可扩展的框架,用于使视觉-语言-动作模型(VLA)能够关注历史上下文信息,从而进行动作预测。该方法引入了时刻令牌(moment tokens),用于紧凑地编码每个时间步的感知信息。这些令牌的表示通过时间对比学习进行初始化,使其能够更好地捕捉时间上独特的方面。此外,HAMLET采用了一个轻量级的记忆模块,将过去时间步的时刻令牌整合到记忆特征中,用于动作预测。实验结果表明,HAMLET成功地将最先进的VLA转化为历史感知策略,尤其是在需要历史上下文的长时程任务上表现出显著的改进。在GR00T N1.5之上,HAMLET在依赖历史信息的真实世界任务中实现了76.4%的平均成功率,超过基线性能47.2%。此外,HAMLET还将RoboCasa Kitchen(100个演示设置)的性能从64.1%提高到66.4%,LIBERO的性能从95.6%提高到97.7%,突出了其在通用机器人操作基准测试中的有效性。

🔬 方法详解

问题定义:现有的视觉-语言-动作模型(VLA)在机器人操作任务中,通常只依赖于当前时刻的视觉输入和语言指令,而忽略了历史信息。然而,许多机器人操作任务本质上是依赖于历史的,例如,需要记住之前执行的步骤或观察到的状态变化。因此,如何有效地利用历史信息来提升VLA的性能是一个关键问题。

核心思路:HAMLET的核心思路是通过引入一种记忆机制,使VLA能够显式地关注和利用历史上下文信息。具体来说,HAMLET使用时刻令牌来编码每个时间步的感知信息,并通过时间对比学习来初始化这些令牌的表示,使其能够更好地捕捉时间上的差异。然后,HAMLET使用一个轻量级的记忆模块来整合过去时间步的时刻令牌,并将这些记忆特征用于动作预测。

技术框架:HAMLET的整体框架包括以下几个主要模块:1) 感知编码器:用于将视觉输入编码成特征向量。2) 时刻令牌生成器:用于将每个时间步的感知特征编码成一个时刻令牌。3) 时间对比学习模块:用于初始化时刻令牌的表示,使其能够捕捉时间上的差异。4) 记忆模块:用于整合过去时间步的时刻令牌,生成记忆特征。5) 动作预测器:用于根据当前的感知特征、语言指令和记忆特征,预测下一步的动作。

关键创新:HAMLET的关键创新在于引入了时刻令牌和轻量级记忆模块,从而使VLA能够显式地关注和利用历史上下文信息。与传统的循环神经网络(RNN)或Transformer等方法相比,HAMLET的记忆模块更加轻量级,并且能够更好地捕捉时间上的差异。此外,HAMLET使用时间对比学习来初始化时刻令牌的表示,进一步提升了其性能。

关键设计:HAMLET的关键设计包括:1) 时刻令牌的维度:需要根据具体的任务和数据集进行调整。2) 时间对比学习的损失函数:可以使用InfoNCE等常用的对比学习损失函数。3) 记忆模块的结构:可以使用Transformer或LSTM等常用的序列模型。4) 动作预测器的结构:可以使用MLP或Transformer等常用的分类器。

📊 实验亮点

HAMLET在多个机器人操作基准测试中取得了显著的性能提升。在GR00T N1.5上,HAMLET在依赖历史信息的真实世界任务中实现了76.4%的平均成功率,超过基线性能47.2%。在RoboCasa Kitchen(100个演示设置)上,HAMLET将性能从64.1%提高到66.4%。在LIBERO上,HAMLET将性能从95.6%提高到97.7%。这些结果表明,HAMLET能够有效地利用历史信息,从而提升VLA的性能。

🎯 应用场景

HAMLET具有广泛的应用前景,可以应用于各种需要历史上下文信息的机器人操作任务中,例如,家庭服务机器人、工业机器人、医疗机器人等。通过利用历史信息,HAMLET可以使机器人更加智能、灵活和可靠,从而更好地完成各种复杂的任务。此外,HAMLET还可以应用于其他领域,例如,视频理解、自然语言处理等。

📄 摘要(原文)

Inherently, robotic manipulation tasks are history-dependent: leveraging past context could be beneficial. However, most existing Vision-Language-Action models (VLAs) have been designed without considering this aspect, i.e., they rely solely on the current observation, ignoring preceding context. In this paper, we propose HAMLET, a scalable framework to adapt VLAs to attend to the historical context during action prediction. Specifically, we introduce moment tokens that compactly encode perceptual information at each timestep. Their representations are initialized with time-contrastive learning, allowing them to better capture temporally distinctive aspects. Next, we employ a lightweight memory module that integrates the moment tokens across past timesteps into memory features, which are then leveraged for action prediction. Through empirical evaluation, we show that HAMLET successfully transforms a state-of-the-art VLA into a history-aware policy, especially demonstrating significant improvements on long-horizon tasks that require historical context. In particular, on top of GR00T N1.5, HAMLET achieves an average success rate of 76.4% on history-dependent real-world tasks, surpassing the baseline performance by 47.2%. Furthermore, HAMLET pushes prior art performance from 64.1% to 66.4% on RoboCasa Kitchen (100-demo setup) and from 95.6% to 97.7% on LIBERO, highlighting its effectiveness even under generic robot-manipulation benchmarks.