ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries
作者: Hang Li, Fengyi Shen, Dong Chen, Liudi Yang, Xudong Wang, Jinkui Shi, Zhenshan Bing, Ziyuan Liu, Alois Knoll
分类: cs.RO
发布日期: 2026-03-13
备注: 14 pages, 6 figures
💡 一句话要点
ReMem-VLA:通过双层循环查询增强视觉-语言-动作模型的记忆能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 机器人控制 循环记忆网络 长期记忆 分层记忆 Transformer 辅助训练
📋 核心要点
- 现有VLA模型依赖马尔可夫假设,在需要历史信息的任务中表现不佳,限制了其应用。
- ReMem-VLA通过双层循环查询机制,分别实现短期和长期记忆,有效整合历史上下文信息。
- 实验结果表明,ReMem-VLA在多种记忆任务上显著优于现有方法,验证了其记忆增强的有效性。
📝 摘要(中文)
本文提出了一种名为ReMem-VLA的循环记忆视觉-语言-动作模型,旨在解决现有VLA模型在需要历史上下文的任务中容易出错的问题。ReMem-VLA配备了两组可学习的查询:帧级别循环记忆查询,用于在连续帧之间传播信息以支持短期记忆;以及块级别循环记忆查询,用于在时间块之间传递上下文以实现长期记忆。这些查询经过端到端训练,可以聚合和维护随时间推移的相关上下文,从而隐式地指导模型的决策,而无需额外的训练或推理成本。此外,为了增强视觉记忆,引入了过去观察预测作为辅助训练目标。通过广泛的以记忆为中心的模拟和真实机器人实验,证明ReMem-VLA在空间、序列、情景、时间和视觉记忆等多个维度上表现出强大的记忆能力,显著优于无记忆VLA基线π0.5和OpenVLA-OFT,并在依赖记忆的任务上大幅超越MemoryVLA。
🔬 方法详解
问题定义:现有的视觉-语言-动作(VLA)模型通常基于马尔可夫假设,即当前状态的决策仅依赖于当前观察。然而,许多机器人任务需要利用历史信息才能做出正确的决策,例如需要记住之前交互过的物体或遵循长期指令。现有的记忆增强方法,如检索式记忆库,容易受到无关信息的干扰,而扩展帧窗口的方法则受限于固定长度的记忆范围,无法有效处理长期依赖关系。
核心思路:ReMem-VLA的核心思路是引入双层循环查询机制,分别处理短期和长期记忆。帧级别循环查询负责在连续帧之间传递信息,捕捉短期动态;块级别循环查询则负责在时间块之间传递上下文,维持长期记忆。通过这种分层结构,模型可以有效地整合不同时间尺度的历史信息,从而做出更明智的决策。
技术框架:ReMem-VLA的整体框架包括视觉编码器、语言编码器、双层循环记忆模块和动作解码器。视觉编码器和语言编码器分别提取视觉和语言特征。双层循环记忆模块是核心,包含帧级别和块级别的循环查询,用于聚合和维护历史上下文信息。动作解码器则根据当前观察和记忆模块的输出,生成相应的动作指令。
关键创新:ReMem-VLA的关键创新在于双层循环查询机制。与传统的单层记忆结构相比,双层结构可以更好地处理不同时间尺度的依赖关系。此外,通过端到端训练,模型可以自动学习如何利用历史信息,而无需手动设计复杂的记忆管理策略。引入Past Observation Prediction作为辅助训练目标,进一步增强了视觉记忆能力。
关键设计:帧级别和块级别的循环查询均采用Transformer结构,通过自注意力机制聚合历史信息。Past Observation Prediction损失函数旨在预测过去一段时间内的视觉观察,鼓励模型学习更丰富的视觉表征。模型采用端到端训练方式,所有模块联合优化,以实现最佳性能。具体参数设置(如Transformer层数、注意力头数等)根据实验结果进行调整。
🖼️ 关键图片
📊 实验亮点
ReMem-VLA在多个记忆相关的模拟和真实机器人实验中取得了显著成果。在需要长期记忆的任务中,ReMem-VLA的性能大幅超越了无记忆的VLA基线(π0.5和OpenVLA-OFT)以及单层记忆模型MemoryVLA。实验结果表明,ReMem-VLA在空间、序列、情景、时间和视觉记忆等多个维度上都表现出强大的记忆能力。
🎯 应用场景
ReMem-VLA具有广泛的应用前景,例如在家庭服务机器人、工业自动化和自动驾驶等领域。它可以帮助机器人在复杂环境中更好地理解指令、记住任务目标,并根据历史经验做出更合理的决策。该研究为提升机器人的自主性和适应性提供了新的思路。
📄 摘要(原文)
Vision-language-action (VLA) models for closed-loop robot control are typically cast under the Markov assumption, making them prone to errors on tasks requiring historical context. To incorporate memory, existing VLAs either retrieve from a memory bank, which can be misled by distractors, or extend the frame window, whose fixed horizon still limits long-term retention. In this paper, we introduce ReMem-VLA, a Recurrent Memory VLA model equipped with two sets of learnable queries: frame-level recurrent memory queries for propagating information across consecutive frames to support short-term memory, and chunk-level recurrent memory queries for carrying context across temporal chunks for long-term memory. These queries are trained end-to-end to aggregate and maintain relevant context over time, implicitly guiding the model's decisions without additional training or inference cost. Furthermore, to enhance visual memory, we introduce Past Observation Prediction as an auxiliary training objective. Through extensive memory-centric simulation and real-world robot experiments, we demonstrate that ReMem-VLA exhibits strong memory capabilities across multiple dimensions, including spatial, sequential, episodic, temporal, and visual memory. ReMem-VLA significantly outperforms memory-free VLA baselines $π$0.5 and OpenVLA-OFT and surpasses MemoryVLA on memory-dependent tasks by a large margin.