WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction
作者: Chengzhi Liu, Yuzhe Yang, Sophia Xiao Pu, Yepeng Liu, Lin Long, Yichen Guo, Nuo Chen, Zhaotian Weng, Elena Kochkina, Simerjot Kaur, Charese Smiley, Xiaomo Liu, James Zou, Sheng Liu, Yuheng Bu, Songyou Peng, Xin Eric Wang
分类: cs.CV, cs.CL
发布日期: 2026-05-28
备注: 25 pages, 8 figures
💡 一句话要点
提出WorldMemArena以评估多模态智能体记忆在行动-世界交互中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态智能体 记忆评估 动态环境 行动-世界交互 长时间任务
📋 核心要点
- 现有的多模态智能体记忆评估方法无法有效定位记忆失败的原因,且对动态环境的适应性不足。
- 本文提出WorldMemArena,通过定义行动-世界交互循环,构建了一个包含多阶段生命周期的多模态智能体记忆评估框架。
- 实验结果显示,记忆的写入和存储并不直接提升性能,且在真实环境中系统表现不稳定,强调了对记忆管理的深入理解的必要性。
📝 摘要(中文)
多模态大型语言模型越来越多地被用作长时间的智能体,其中记忆不仅要回忆,还必须跟踪不断变化的世界、修正过时的信息,并在决策时提供正确的证据。现有基准测试主要测量静态对话中的回忆,无法有效定位记忆的失败原因。为此,本文提出了WorldMemArena,一个包含400个多会话多模态任务的评估框架,旨在通过可观察的四阶段生命周期来评估智能体的记忆表现。实验结果表明,记忆的写入和存储能力并不一定能保证更好的性能,多模态记忆在充分利用视觉证据方面仍存在困难,系统在不同领域间不稳定,并且自管理的记忆系统虽然灵活但成本高且可靠性较低。
🔬 方法详解
问题定义:本文旨在解决现有多模态智能体记忆评估方法的不足,特别是在动态环境中无法有效定位记忆失败的原因。现有方法往往将记忆简化为静态对话的回忆,无法反映智能体在真实场景中的表现。
核心思路:论文提出了一个新的评估框架WorldMemArena,通过定义一个可观察的行动-世界交互循环,构建了一个包含四个阶段的生命周期,以全面评估智能体的记忆能力。
技术框架:WorldMemArena包含400个多会话多模态任务,涵盖了个人和任务状态的长期演变以及基于真实观察、行动和反馈的智能体执行。每个任务都被标注了金标准记忆点、更新、干扰项和证据链,以便进行阶段级诊断。
关键创新:最重要的创新在于将智能体记忆的评估转变为一个动态的、可观察的循环过程,而不是静态的回忆测量。这种方法允许对手动设计的记忆系统与自管理的智能体记忆进行直接比较。
关键设计:在设计中,论文强调了记忆写入和存储的质量对性能的影响,并通过多模态任务的设置来测试系统在不同领域的稳定性和适应性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,尽管改进了记忆的写入和存储,但并未显著提升智能体的整体性能。此外,系统在不同领域间表现不稳定,尤其是在真实的智能体执行轨迹中,强调了对记忆管理的深入理解的必要性。
🎯 应用场景
该研究的潜在应用领域包括智能助手、机器人导航、虚拟现实等场景,能够为多模态智能体的记忆管理提供新的评估标准和优化方向。未来,随着智能体在复杂环境中的应用增多,提升其记忆能力将对实现更高效的决策和交互至关重要。
📄 摘要(原文)
Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.