MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
作者: Xiyu Ren, Zhaowei Wang, Yiming Du, Zhongwei Xie, Chi Liu, Xinlin Yang, Haoyue Feng, Wenjun Pan, Tianshi Zheng, Baixuan Xu, Zhengnan Li, Yangqiu Song, Ginny Wong, Simon See
分类: cs.CV
发布日期: 2026-05-14
备注: Work in progress
🔗 代码/项目: GITHUB
💡 一句话要点
提出MEMLENS基准,系统评估大型视觉语言模型在多模态长期记忆中的表现。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 长期记忆 视觉语言模型 基准测试 对话系统
📋 核心要点
- 现有方法在处理需要多模态证据的问题时,缺乏对长上下文LVLM和记忆增强代理的系统比较。
- 提出MEMLENS基准,包含五个记忆能力维度和不同上下文长度,用于全面评估多模态长期记忆。
- 实验表明长上下文LVLM在短上下文表现好,但随对话增长退化,记忆代理长度稳定但损失视觉保真度。
📝 摘要(中文)
本文提出了MEMLENS,一个用于评估大型视觉语言模型(LVLMs)在多模态多轮对话中记忆能力的综合基准。该基准包含789个问题,涵盖五个记忆能力维度(信息抽取、多轮推理、时间推理、知识更新和拒绝回答),并设置了四个标准上下文长度(32K-256K tokens)。通过跨模态token计数方案,图像消融实验验证了MEMLENS需要视觉证据来解决:移除证据图像导致两个前沿LVLM在80.4%包含图像证据的问题上准确率低于2%。对27个LVLM和7个记忆增强代理的评估表明,长上下文LVLM通过直接视觉定位实现高短上下文准确率,但随着对话增长而退化,而记忆代理长度稳定,但在存储时压缩下会丢失视觉保真度。多轮推理限制了大多数系统低于30%的准确率,并且单独使用任何一种方法都无法解决该任务。这些结果激发了将长上下文注意力与结构化多模态检索相结合的混合架构。代码可在https://github.com/xrenaf/MEMLENS获取。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)在多模态长期对话中记忆能力评估的问题。现有方法,如长上下文LVLMs和记忆增强代理,虽然具备一定的记忆能力,但缺乏一个系统性的基准来评估它们在需要多模态证据支持的复杂问题上的表现。现有基准无法有效区分这两种方法的优劣,也无法充分揭示它们在处理长程依赖和多模态信息时的局限性。
核心思路:论文的核心思路是构建一个更具挑战性和代表性的多模态长期记忆基准,即MEMLENS。该基准的设计重点在于:1) 问题需要依赖多模态证据才能解答;2) 涵盖多种记忆能力维度,如信息抽取、多轮推理、时间推理、知识更新和拒绝回答;3) 支持不同长度的上下文,以评估模型在长程依赖下的表现。通过这个基准,可以更全面地评估LVLMs和记忆增强代理的记忆能力,并为未来的研究提供指导。
技术框架:MEMLENS基准主要包含以下几个组成部分:1) 数据集:包含789个问题,每个问题都与一段多模态对话历史相关联。对话历史包含文本和图像信息,并且问题需要依赖这些信息才能解答。2) 评估指标:使用准确率作为主要评估指标,用于衡量模型回答问题的正确率。3) 上下文长度控制:通过跨模态token计数方案,控制上下文的长度,支持32K-256K tokens的不同长度。4) 图像消融实验:通过移除证据图像,验证问题是否需要视觉证据才能解答。
关键创新:MEMLENS的关键创新在于其对多模态长期记忆的全面评估。与现有基准相比,MEMLENS更侧重于评估模型在需要多模态证据支持的复杂问题上的表现,并且涵盖了多种记忆能力维度。此外,MEMLENS还通过图像消融实验,验证了问题是否需要视觉证据才能解答,从而确保了评估的有效性。
关键设计:MEMLENS的关键设计包括:1) 问题设计:问题设计需要依赖多模态证据才能解答,并且涵盖了多种记忆能力维度。2) 上下文长度控制:使用跨模态token计数方案,控制上下文的长度,支持32K-256K tokens的不同长度。3) 评估指标:使用准确率作为主要评估指标,用于衡量模型回答问题的正确率。4) 图像消融实验:通过移除证据图像,验证问题是否需要视觉证据才能解答。
📊 实验亮点
实验结果表明,长上下文LVLM在短上下文表现良好,但随着对话长度增加性能下降。记忆增强代理虽然长度稳定性好,但在存储时压缩会损失视觉信息。多轮推理能力普遍较差,大多数系统准确率低于30%。图像消融实验证实,80.4%的问题需要视觉证据,移除图像后模型准确率骤降至2%以下。
🎯 应用场景
该研究成果可应用于开发更强大的多模态对话系统、智能助手和机器人。通过提升模型的多模态长期记忆能力,可以使其更好地理解和处理复杂的现实世界场景,从而提供更智能、更个性化的服务。例如,在医疗诊断、教育辅导和客户服务等领域,具备强大记忆能力的模型可以更好地理解用户需求,并提供更准确的建议和解决方案。
📄 摘要(原文)
Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.