HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy
作者: Myungkyu Koo, Daewon Choi, Taeyoung Kim, Kyungmin Lee, Changyeon Kim, Younggyo Seo, Jinwoo Shin
分类: cs.RO, cs.CV
发布日期: 2025-10-01 (更新: 2025-10-02)
备注: Project page: https://myungkyukoo.github.io/hamlet/
💡 一句话要点
HAMLET:将视觉-语言-动作模型转化为历史感知策略,提升机器人操作性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 历史感知 机器人操作 时间对比学习 记忆模块
📋 核心要点
- 现有视觉-语言-动作模型(VLA)通常忽略历史上下文,仅依赖当前观测,这限制了其在复杂机器人操作任务中的表现。
- HAMLET通过引入时刻令牌和轻量级记忆模块,使VLA能够有效地利用历史信息进行动作预测,从而提升性能。
- 实验表明,HAMLET在长时程和依赖历史的任务中显著优于现有方法,并在多个机器人操作基准测试中取得了性能提升。
📝 摘要(中文)
本文提出HAMLET,一个可扩展的框架,用于使视觉-语言-动作模型(VLA)能够关注历史上下文信息,从而进行动作预测。该方法引入了时刻令牌(moment tokens),用于紧凑地编码每个时间步的感知信息。这些令牌的表示通过时间对比学习进行初始化,使其更好地捕捉时间上独特的方面。然后,采用一个轻量级的记忆模块,将过去时间步的时刻令牌整合到记忆特征中,并用于动作预测。实验结果表明,HAMLET成功地将最先进的VLA转化为历史感知策略,尤其是在需要历史上下文的长时程任务上表现出显著的改进。在GR00T N1.5之上,HAMLET在依赖历史的真实世界任务中实现了76.4%的平均成功率,超过基线性能47.2%。此外,HAMLET还将RoboCasa Kitchen(100个演示设置)的性能从64.1%提高到66.4%,LIBERO的性能从95.6%提高到97.7%,突显了其在通用机器人操作基准测试中的有效性。
🔬 方法详解
问题定义:现有的视觉-语言-动作模型(VLA)在机器人操作任务中,通常只依赖于当前时刻的视觉信息和语言指令,而忽略了历史状态和动作序列的影响。这种局限性导致模型在需要长期记忆和推理的任务中表现不佳,尤其是在任务目标依赖于过去状态的情况下。现有方法缺乏有效利用历史信息的能力,无法充分理解任务的上下文。
核心思路:HAMLET的核心思路是通过引入“时刻令牌”(moment tokens)来压缩每个时间步的感知信息,并利用一个轻量级的记忆模块来整合这些令牌,从而使VLA模型能够感知历史信息。通过时间对比学习初始化时刻令牌,使其能够捕捉时间上的差异性,进而提升模型对历史信息的利用效率。
技术框架:HAMLET框架主要包含以下几个模块:1) 时刻令牌编码器:将每个时间步的视觉信息编码为紧凑的时刻令牌。2) 时间对比学习:用于初始化时刻令牌的表示,使其能够区分不同时间步的信息。3) 记忆模块:整合过去时间步的时刻令牌,形成记忆特征。4) 动作预测模块:利用记忆特征和当前观测,预测下一步的动作。
关键创新:HAMLET的关键创新在于引入了时刻令牌和轻量级记忆模块,使得VLA模型能够有效地利用历史信息。与直接使用原始视觉信息相比,时刻令牌能够更紧凑地表示每个时间步的状态,降低了计算复杂度。时间对比学习则使得时刻令牌能够更好地捕捉时间上的差异性,提升了模型对历史信息的敏感度。
关键设计:时刻令牌编码器可以使用卷积神经网络或Transformer等结构。时间对比学习的目标是拉近同一时间步不同视角下的时刻令牌表示,推远不同时间步的时刻令牌表示。记忆模块可以使用循环神经网络(RNN)或Transformer等结构,用于整合过去时间步的时刻令牌。动作预测模块可以使用多层感知机(MLP)或Transformer等结构,将记忆特征和当前观测映射到动作空间。
🖼️ 关键图片
📊 实验亮点
HAMLET在GR00T N1.5上,在依赖历史的真实世界任务中实现了76.4%的平均成功率,相比基线性能提升了47.2%。在RoboCasa Kitchen(100个演示设置)上,HAMLET将性能从64.1%提高到66.4%,在LIBERO上,性能从95.6%提高到97.7%。这些结果表明,HAMLET能够有效地利用历史信息,显著提升机器人的操作性能。
🎯 应用场景
HAMLET具有广泛的应用前景,可应用于各种需要历史信息感知的机器人操作任务,例如装配、烹饪、清洁等。该方法可以提升机器人在复杂环境中的适应性和鲁棒性,使其能够更好地完成长期任务。此外,HAMLET还可以应用于其他领域,例如视频理解、自然语言处理等,用于提升模型对上下文信息的理解能力。
📄 摘要(原文)
Inherently, robotic manipulation tasks are history-dependent: leveraging past context could be beneficial. However, most existing Vision-Language-Action models (VLAs) have been designed without considering this aspect, i.e., they rely solely on the current observation, ignoring preceding context. In this paper, we propose HAMLET, a scalable framework to adapt VLAs to attend to the historical context during action prediction. Specifically, we introduce moment tokens that compactly encode perceptual information at each timestep. Their representations are initialized with time-contrastive learning, allowing them to better capture temporally distinctive aspects. Next, we employ a lightweight memory module that integrates the moment tokens across past timesteps into memory features, which are then leveraged for action prediction. Through empirical evaluation, we show that HAMLET successfully transforms a state-of-the-art VLA into a history-aware policy, especially demonstrating significant improvements on long-horizon tasks that require historical context. In particular, on top of GR00T N1.5, HAMLET achieves an average success rate of 76.4% on history-dependent real-world tasks, surpassing the baseline performance by 47.2%. Furthermore, HAMLET pushes prior art performance from 64.1% to 66.4% on RoboCasa Kitchen (100-demo setup) and from 95.6% to 97.7% on LIBERO, highlighting its effectiveness even under generic robot-manipulation benchmarks.