MemoAct: Atkinson-Shiffrin-Inspired Memory-Augmented Visuomotor Policy for Robotic Manipulation

作者: Liufan Tan, Jiale Li, Gangshan Jing

分类: cs.RO

发布日期: 2026-03-19

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

MemoAct：受Atkinson-Shiffrin模型启发的记忆增强型机器人操作策略

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 机器人操作 记忆增强 长时程记忆 分层记忆 强化学习

📋 核心要点

现有机器人策略在处理依赖记忆的任务时，难以兼顾精确的任务状态跟踪和鲁棒的长时程记忆保持。
MemoAct借鉴Atkinson-Shiffrin记忆模型，采用分层记忆结构，利用短期记忆进行精确跟踪，长期记忆进行鲁棒保持。
论文构建了MemoryRTBench评估环境，实验结果表明MemoAct在模拟和真实场景中均优于现有基线方法。

📝 摘要（中文）

记忆增强型机器人策略对于处理依赖记忆的任务至关重要。然而，现有方法通常依赖于简单的观察窗口扩展，难以同时实现精确的任务状态跟踪和鲁棒的长时程记忆保持。为了克服这些挑战，受Atkinson-Shiffrin记忆模型的启发，我们提出了MemoAct，一种分层记忆策略，利用不同的记忆层来解决特定的瓶颈。具体而言，无损短期记忆确保精确的任务状态跟踪，而压缩的长期记忆则实现鲁棒的长时程记忆保持。为了丰富评估范围，我们基于RoboTwin 2.0构建了MemoryRTBench，专门用于评估策略在任务状态跟踪和长时程记忆保持方面的能力。在模拟和真实场景中进行的大量实验表明，与现有的马尔可夫基线和历史感知策略相比，MemoAct实现了卓越的性能。

🔬 方法详解

问题定义：现有基于观察窗口扩展的机器人策略，在处理需要长期记忆的任务时，无法同时保证任务状态跟踪的精度和长期记忆的鲁棒性。简单地扩展观察窗口会导致信息冗余，影响状态估计的准确性，而缺乏有效的长期记忆机制则限制了策略处理复杂任务的能力。

核心思路：MemoAct的核心思路是模仿人类的记忆机制，采用分层记忆结构，将记忆分为短期记忆和长期记忆。短期记忆负责精确地跟踪当前的任务状态，而长期记忆则负责存储和检索历史信息，从而实现鲁棒的长时程记忆保持。这种分层结构使得策略能够有效地处理信息，避免信息冗余，并提高任务完成的效率。

技术框架：MemoAct的整体架构包含三个主要模块：短期记忆模块、长期记忆模块和策略网络。短期记忆模块采用无损的记忆方式，例如循环神经网络（RNN）或Transformer，用于精确地跟踪当前的任务状态。长期记忆模块采用压缩的记忆方式，例如自编码器或变分自编码器（VAE），用于存储和检索历史信息。策略网络根据短期记忆和长期记忆的输出，生成相应的动作。

关键创新：MemoAct的关键创新在于其分层记忆结构，该结构能够有效地分离任务状态跟踪和长时程记忆保持这两个任务，从而提高策略的性能。与现有方法相比，MemoAct能够更好地处理信息冗余，并实现更鲁棒的长时程记忆保持。此外，MemoryRTBench的构建也为相关研究提供了新的评估基准。

关键设计：短期记忆模块可以使用LSTM或GRU等循环神经网络，也可以使用Transformer等自注意力机制。长期记忆模块可以使用VAE进行压缩，并使用注意力机制进行检索。策略网络可以使用多层感知机（MLP）或卷积神经网络（CNN）。损失函数可以包括模仿学习损失、强化学习损失以及记忆模块的重建损失等。具体参数设置需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

MemoAct在模拟和真实世界的机器人操作任务中都取得了显著的性能提升。与现有的马尔可夫基线和历史感知策略相比，MemoAct在任务完成率和效率方面均有明显优势。例如，在MemoryRTBench上的实验结果表明，MemoAct能够更好地处理需要长期记忆的任务，并实现更鲁棒的性能。

🎯 应用场景

MemoAct具有广泛的应用前景，例如复杂装配任务、长期导航任务、人机协作任务等。该方法可以提高机器人在复杂环境中的适应性和鲁棒性，使其能够更好地完成各种任务。此外，MemoAct还可以应用于其他需要长期记忆的领域，例如对话系统、推荐系统等。

📄 摘要（原文）

Memory-augmented robotic policies are essential in handling memory-dependent tasks. However, existing approaches typically rely on simple observation window extensions, struggling to simultaneously achieve precise task state tracking and robust long-horizon retention. To overcome these challenges, inspired by the Atkinson-Shiffrin memory model, we propose MemoAct, a hierarchical memory-based policy that leverages distinct memory tiers to tackle specific bottlenecks. Specifically, lossless short-term memory ensures precise task state tracking, while compressed long-term memory enables robust long-horizon retention. To enrich the evaluation landscape, we construct MemoryRTBench based on RoboTwin 2.0, specifically tailored to assess policy capabilities in task state tracking and long-horizon retention. Extensive experiments across simulated and real-world scenarios demonstrate that MemoAct achieves superior performance compared to both existing Markovian baselines and history-aware policies. The project page is \href{https://tlf-tlf.github.io/MemoActPage/}{available}.

MemoAct: Atkinson-Shiffrin-Inspired Memory-Augmented Visuomotor Policy for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理