Task-Focused Memorization for Multimodal Agents
作者: Tao Zou, Yichen He, Tian Qiu, Yuan Lin, Hang Li
分类: cs.CV
发布日期: 2026-05-29
💡 一句话要点
提出TaskMem:基于强化学习的多模态Agent任务聚焦记忆策略学习框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态Agent 长时记忆 强化学习 任务聚焦 记忆策略学习
📋 核心要点
- 现有方法难以从海量多模态信息中选择与任务相关的记忆内容,导致记忆效率低下。
- TaskMem将记忆生成建模为可学习的策略,通过强化学习动态调整记忆焦点,适应环境中的任务需求。
- 在VideoMME、EgoLife和EgoTempo等流式基准测试中,TaskMem显著提升了VQA准确率。
📝 摘要(中文)
长时记忆对于多模态Agent构建连贯的经验、积累世界知识和实现持续学习至关重要。然而,构建有效的记忆不仅仅是设计记忆模块和满足准确性、保真度等基本要求;关键挑战在于确定记忆什么内容。多模态Agent,如具身Agent,在真实或虚拟环境中持续感知、推理和行动,接收到无限的多模态观测流。面对这种组合爆炸式的信息,Agent必须有选择地保留与其在环境中的角色相关且对未来任务有价值的内容。为了弥合这一差距,我们将记忆生成构建为可学习的记忆策略,并引入TaskMem(任务聚焦记忆策略学习),这是一个基于强化学习的框架,使策略能够动态地调整其焦点以适应环境中遇到的实际任务的需求。TaskMem采用两阶段训练范式:第一阶段通过优化基本保真度要求下的记忆质量来学习如何记忆;第二阶段发生在部署之后,Agent通过调整其基础MLLM上的适配器来学习记忆什么,使用最近的环境任务来定义奖励模型,该模型引导记忆策略朝着与任务相关的内容发展。为了评估我们的方法,我们将VideoMME、EgoLife和EgoTempo重新构建为流式基准,模拟Agent处理流式观测并在线处理任务的真实设置。为了隔离记忆评估,问题必须仅使用Agent的记忆来回答,而无需访问原始视频。基于Qwen3-VL-30B-A3B,TaskMem在这些基准测试中分别提高了6.3%、7.0%和5.3%的VQA准确率。
🔬 方法详解
问题定义:多模态Agent在连续的环境交互中产生海量的多模态数据,如何从中选择并存储对未来任务有用的信息是一个关键问题。现有方法通常采用固定的记忆策略,无法根据任务动态调整记忆重点,导致记忆效率低下,存储的信息可能与当前任务无关,浪费资源。
核心思路:论文的核心思路是将记忆过程视为一个决策过程,Agent需要根据当前的任务和环境状态,决定哪些信息需要记忆,哪些信息可以忽略。通过学习一个记忆策略,Agent可以动态地调整记忆重点,只存储与任务相关的信息,从而提高记忆效率和任务完成度。
技术框架:TaskMem框架包含两个主要阶段:第一阶段是预训练阶段,目标是学习如何高质量地记忆信息,保证记忆的准确性和保真度。第二阶段是任务适应阶段,Agent在实际环境中与任务交互,通过强化学习调整记忆策略,使其能够根据任务需求选择性地记忆信息。该阶段使用奖励模型来指导记忆策略的学习,奖励模型根据Agent完成任务的情况给出奖励,引导Agent记住对完成任务有帮助的信息。
关键创新:TaskMem的关键创新在于将记忆过程建模为一个可学习的策略,并使用强化学习来优化该策略。与传统的固定记忆策略相比,TaskMem能够动态地调整记忆重点,更好地适应不同的任务需求。此外,TaskMem使用奖励模型来指导记忆策略的学习,使得Agent能够记住对完成任务有帮助的信息。
关键设计:TaskMem使用Qwen3-VL-30B-A3B作为基础MLLM。在任务适应阶段,通过在基础模型上添加一个Adapter来学习任务相关的记忆策略。奖励模型的设计至关重要,论文使用最近的环境任务来定义奖励模型,奖励Agent记住能够帮助完成这些任务的信息。具体的强化学习算法未知,但目标是最大化Agent在环境中的累积奖励。
🖼️ 关键图片
📊 实验亮点
TaskMem在VideoMME、EgoLife和EgoTempo三个流式基准测试中,相较于基线模型Qwen3-VL-30B-A3B,分别取得了6.3%、7.0%和5.3%的VQA准确率提升。这些结果表明,TaskMem能够有效地提高Agent在流式环境中的记忆能力和任务完成能力。
🎯 应用场景
TaskMem可应用于各种需要长期记忆的多模态Agent,例如:具身导航、智能助手、机器人操作等。通过选择性地记忆与任务相关的信息,Agent可以更有效地利用有限的记忆资源,提高任务完成效率和智能化水平。该研究对于提升Agent的持续学习能力和适应复杂环境的能力具有重要意义。
📄 摘要(原文)
Long-term memory is essential for multimodal agents to build coherent experience, accumulate world knowledge, and achieve continual learning. However, constructing effective memory goes beyond memory module design and basic requirements such as accuracy and fidelity; the key challenge lies in determining what to memorize. Multimodal agents, such as embodied agents, continuously perceive, reason, and act in real or virtual environments, receiving an unbounded stream of multimodal observations. From this combinatorial explosion of information, an agent must selectively retain content that is relevant to its role in the environment and valuable for future tasks. To bridge this gap, we frame memory generation as a learnable memorization policy and introduce TaskMem (Task-focused Memorization Policy Learning), a reinforcement-learning-based framework that enables the policy to dynamically adjust its focus to the demands of real tasks encountered in the environment. TaskMem adopts a two-phase training paradigm: Phase One learns how to memorize by optimizing memory quality under fundamental fidelity requirements; Phase Two occurs after deployment, where the agent learns what to memorize by tuning an adapter on its base MLLM, using recent environment tasks to define a reward model that guides the memorization policy toward task-relevant content. To evaluate our approach, we reformulate VideoMME, EgoLife, and EgoTempo into streaming benchmarks that simulate a realistic setting in which an agent processes streaming observations and handles tasks arriving online. To isolate memory assessment, the questions must be answered using only the agent's memory, without access to raw video. Built on Qwen3-VL-30B-A3B, TaskMem improves VQA accuracy by 6.3%, 7.0%, and 5.3% on these benchmarks, respectively.