MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

📄 arXiv: 2605.15128v1 📥 PDF

作者: Minghao Guo, Qingyue Jiao, Zeru Shi, Yihao Quan, Boxuan Zhang, Danrui Li, Liwei Che, Wujiang Xu, Shilong Liu, Zirui Liu, Mubbasir Kapadia, Vladimir Pavlovic, Jiang Liu, Mengdi Wang, Yiyu Shi, Dimitris N. Metaxas, Ruixiang Tang

分类: cs.CV, cs.CL, cs.IR

发布日期: 2026-05-14

备注: 46 pages, 15 figures


💡 一句话要点

MemEye:提出视觉中心的多模态Agent记忆评估框架,解决现有方法忽略细粒度视觉证据的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 长期记忆 视觉推理 评估框架 细粒度视觉证据

📋 核心要点

  1. 现有Agent记忆评估方法未能充分测试Agent保留细粒度视觉证据的能力,导致对视觉推理能力的评估不足。
  2. MemEye框架通过考察视觉证据的粒度和使用方式,全面评估Agent在复杂视觉场景下的记忆和推理能力。
  3. 实验结果表明,现有Agent架构在保留细粒度视觉细节和进行时序视觉推理方面仍有较大提升空间。

📝 摘要(中文)

本文提出MemEye,一个用于评估多模态Agent记忆能力的框架,尤其关注Agent是否能保留后续推理所需的视觉证据。现有评估方法往往只依赖文本信息或粗粒度的视觉信息,忽略了对细粒度视觉证据的考察,并且缺乏对Agent在变化视觉状态下进行推理能力的测试。MemEye从两个维度评估记忆能力:一是决定性视觉证据的粒度(从场景级到像素级),二是检索到的证据的使用方式(从单一证据到演化合成)。基于此框架,构建了一个包含8个生活场景任务的新基准,并设计了消融驱动的验证门,用于评估可回答性、捷径抵抗、视觉必要性和推理结构。通过在4个VLM骨干网络上评估13种记忆方法,结果表明当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。研究结果表明,长期多模态记忆依赖于证据路由、时间跟踪和细节提取。

🔬 方法详解

问题定义:现有Agent记忆评估方法主要依赖文本信息或粗粒度的视觉信息,忽略了Agent对细粒度视觉证据的保留能力。此外,现有方法缺乏对Agent在动态变化的视觉状态下进行推理能力的测试,使得对Agent长期记忆能力的评估不够全面和深入。现有方法容易利用文本捷径,无法真正考察视觉记忆能力。

核心思路:MemEye框架的核心思路是从视觉证据的粒度和使用方式两个维度来评估Agent的记忆能力。通过设计需要细粒度视觉信息和复杂视觉推理的任务,迫使Agent必须保留和利用视觉证据才能完成任务。框架通过可回答性、捷径抵抗、视觉必要性和推理结构验证门,确保评估的有效性和可靠性。

技术框架:MemEye框架包含以下几个主要组成部分:1)包含8个生活场景任务的新基准数据集,这些任务需要Agent具备不同粒度的视觉记忆和推理能力。2)消融驱动的验证门,用于评估任务的可回答性、捷径抵抗、视觉必要性和推理结构。3)评估指标,用于量化Agent在不同任务上的表现。整体流程是:Agent接收任务输入,从记忆中检索相关信息,进行推理,并输出答案。MemEye框架评估Agent检索到的信息的质量和推理过程的正确性。

关键创新:MemEye的关键创新在于其视觉中心的评估视角和多维度的评估方法。与以往主要关注文本信息的评估方法不同,MemEye强调对细粒度视觉证据的考察,并设计了需要复杂视觉推理的任务。此外,MemEye通过验证门确保评估的有效性和可靠性,避免Agent通过捷径获得正确答案。

关键设计:MemEye框架的关键设计包括:1)任务设计:任务涵盖了不同粒度的视觉证据(从场景级到像素级)和不同类型的视觉推理(从单一证据到演化合成)。2)验证门设计:可回答性验证门确保任务是可解的;捷径抵抗验证门确保Agent不能通过文本捷径获得答案;视觉必要性验证门确保任务必须依赖视觉信息才能解决;推理结构验证门确保Agent需要进行复杂的推理才能完成任务。3)评估指标设计:评估指标包括准确率、召回率等,用于量化Agent在不同任务上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在包含8个生活场景任务的新基准测试中,MemEye评估了13种记忆方法在4个VLM骨干网络上的表现。实验结果表明,现有架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。例如,在需要像素级视觉证据的任务中,现有方法的准确率普遍较低,表明其无法有效提取和利用细粒度的视觉信息。

🎯 应用场景

MemEye框架可用于评估和改进多模态Agent的长期记忆能力,尤其是在需要细粒度视觉信息和复杂视觉推理的场景下,例如机器人导航、智能家居、自动驾驶等。该框架可以帮助研究人员更好地理解Agent的记忆机制,并开发更有效的记忆方法,从而提升Agent的智能水平和应用范围。

📄 摘要(原文)

Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.