Gated Memory Policy
作者: Yihuai Gao, Jinyun Liu, Shuang Li, Shuran Song
分类: cs.RO, cs.AI
发布日期: 2026-04-21
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出门控记忆策略(GMP),解决机器人操作任务中非马尔可夫决策问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人操作 非马尔可夫决策 记忆策略 门控机制 交叉注意力 模仿学习 视觉运动策略
📋 核心要点
- 现有视觉运动策略在处理非马尔可夫机器人操作任务时,简单扩展历史信息会导致性能下降,原因是分布偏移和过拟合。
- 论文提出门控记忆策略(GMP),通过学习记忆门机制选择性激活历史信息,并利用交叉注意力模块构建有效的潜在记忆表示。
- 在MemMimic基准测试中,GMP相比长历史基线平均成功率提升30.1%,并在RoboMimic的马尔可夫任务中保持了竞争力。
📝 摘要(中文)
机器人操作任务对记忆的需求各不相同,从不需要记忆的马尔可夫任务到依赖历史信息的非马尔可夫任务。然而,简单地扩展视觉运动策略的观察历史通常会导致性能显著下降,这是由于分布偏移和过拟合造成的。为了解决这些问题,我们提出了门控记忆策略(GMP),这是一种视觉运动策略,可以学习何时回忆记忆以及回忆什么。为了学习何时回忆记忆,GMP采用了一种学习到的记忆门机制,该机制仅在必要时选择性地激活历史上下文,从而提高鲁棒性和反应性。为了有效地学习回忆什么,GMP引入了一个轻量级的交叉注意力模块,该模块构建有效的潜在记忆表示。为了进一步提高鲁棒性,GMP将扩散噪声注入到历史动作中,从而减轻训练和推理过程中对噪声或不准确历史的敏感性。在我们提出的非马尔可夫基准MemMimic上,GMP的平均成功率比长历史基线提高了30.1%,同时在RoboMimic的马尔可夫任务中保持了具有竞争力的性能。所有代码、数据和实际部署说明都可以在我们的项目网站https://gated-memory-policy.github.io/上找到。
🔬 方法详解
问题定义:机器人操作任务通常需要根据历史信息进行决策,即非马尔可夫决策过程。然而,直接将历史观测作为输入会导致维度灾难和过拟合,尤其是在视觉运动策略中。现有方法难以有效利用历史信息,导致性能下降。
核心思路:GMP的核心在于学习何时以及如何利用历史信息。通过门控机制选择性地激活历史上下文,避免不必要的历史信息干扰当前决策。同时,利用交叉注意力机制提取历史信息中的关键特征,构建有效的记忆表示。
技术框架:GMP包含三个主要模块:观测编码器、记忆门控模块和动作预测器。观测编码器将当前观测编码为特征向量。记忆门控模块根据当前观测和历史信息,决定是否激活历史上下文。如果激活,则使用交叉注意力模块提取历史信息中的关键特征,并将其与当前观测特征融合。最后,动作预测器根据融合后的特征预测动作。
关键创新:GMP的关键创新在于学习记忆门控机制和使用交叉注意力构建记忆表示。记忆门控机制能够自适应地选择需要回忆的历史信息,避免了冗余信息的干扰。交叉注意力机制能够有效地提取历史信息中的关键特征,提高了记忆表示的效率。此外,注入扩散噪声到历史动作中,增强了对噪声历史的鲁棒性。
关键设计:记忆门控模块使用sigmoid函数输出一个0到1之间的值,表示激活历史上下文的概率。交叉注意力模块使用query、key和value三个向量,query来自当前观测特征,key和value来自历史信息。损失函数包括模仿学习损失和门控损失,门控损失鼓励模型学习合适的门控策略。
🖼️ 关键图片
📊 实验亮点
GMP在MemMimic基准测试中取得了显著的性能提升,平均成功率比长历史基线提高了30.1%。同时,GMP在RoboMimic的马尔可夫任务中保持了具有竞争力的性能,表明该方法具有良好的泛化能力。消融实验验证了记忆门控机制和交叉注意力模块的有效性。
🎯 应用场景
该研究成果可应用于各种需要长期记忆的机器人操作任务,例如装配、抓取、导航等。通过学习何时以及如何利用历史信息,机器人可以更好地适应复杂环境,完成更具挑战性的任务。该方法还可扩展到其他需要记忆的序列决策问题,例如自然语言处理和金融预测。
📄 摘要(原文)
Robotic manipulation tasks exhibit varying memory requirements, ranging from Markovian tasks that require no memory to non-Markovian tasks that depend on historical information spanning single or multiple interaction trials. Surprisingly, simply extending observation histories of a visuomotor policy often leads to a significant performance drop due to distribution shift and overfitting. To address these issues, we propose Gated Memory Policy (GMP), a visuomotor policy that learns both when to recall memory and what to recall. To learn when to recall memory, GMP employs a learned memory gate mechanism that selectively activates history context only when necessary, improving robustness and reactivity. To learn what to recall efficiently, GMP introduces a lightweight cross-attention module that constructs effective latent memory representations. To further enhance robustness, GMP injects diffusion noise into historical actions, mitigating sensitivity to noisy or inaccurate histories during both training and inference. On our proposed non-Markovian benchmark MemMimic, GMP achieves a 30.1% average success rate improvement over long-history baselines, while maintaining competitive performance on Markovian tasks in RoboMimic. All code, data and in-the-wild deployment instructions are available on our project website https://gated-memory-policy.github.io/.