Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents

作者: Yuanchen Bei, Tianxin Wei, Xuying Ning, Yanjun Zhao, Zhining Liu, Xiao Lin, Yada Zhu, Hendrik Hamann, Jingrui He, Hanghang Tong

分类: cs.CL, cs.AI

发布日期: 2026-01-07

备注: 34 pages, 18 figures

💡 一句话要点

提出Mem-Gallery基准，评估多模态LLM Agent的长期对话记忆能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 长期记忆 对话系统 大型语言模型 基准测试

📋 核心要点

现有基准缺乏对多模态LLM Agent在长期对话中记忆的保存、组织和演变能力的全面评估。
Mem-Gallery基准通过构建高质量的多轮多模态对话，并提出系统评估框架来解决上述问题。
实验结果揭示了现有记忆系统在多模态信息保留、记忆推理和知识管理方面的不足。

📝 摘要（中文）

长时记忆是多模态大型语言模型（MLLM）Agent的关键能力，尤其是在对话环境中，信息会随时间累积和演变。然而，现有的基准要么在纯文本对话中评估多轮会话记忆，要么在局部上下文中评估多模态理解，无法评估多模态记忆如何在长期对话轨迹中被保存、组织和演变。因此，我们引入了Mem-Gallery，这是一个新的基准，用于评估MLLM Agent中的多模态长期对话记忆。Mem-Gallery具有高质量的多轮会话，这些会话基于视觉和文本信息，具有较长的交互范围和丰富的多模态依赖性。在此数据集的基础上，我们提出了一个系统的评估框架，该框架从三个功能维度评估关键的记忆能力：记忆提取和测试时适应、记忆推理和记忆知识管理。对十三个记忆系统进行的大量基准测试揭示了几个关键发现，强调了显式多模态信息保留和记忆组织的必要性，记忆推理和知识管理方面持续存在的局限性，以及当前模型的效率瓶颈。

🔬 方法详解

问题定义：现有方法在评估多模态大型语言模型（MLLM）Agent的长期对话记忆能力时存在不足。具体来说，现有基准要么只关注文本对话中的多轮会话记忆，要么只关注局部上下文中的多模态理解，而忽略了在长期对话轨迹中，多模态记忆如何被保存、组织和演变。这导致无法全面评估MLLM Agent在实际应用场景中的记忆能力。

核心思路：Mem-Gallery的核心思路是构建一个更贴近真实场景的多模态长期对话数据集，并设计一个系统的评估框架，以全面评估MLLM Agent的记忆能力。通过引入视觉信息和更长的对话历史，Mem-Gallery能够更好地模拟真实世界中的对话场景，从而更准确地评估MLLM Agent的记忆性能。

技术框架：Mem-Gallery的整体框架包含两个主要部分：数据集构建和评估框架。数据集构建部分，作者收集并整理了包含多轮对话、文本信息和视觉信息的数据集。评估框架部分，作者设计了三个功能维度来评估记忆能力：记忆提取和测试时适应、记忆推理和记忆知识管理。针对每个维度，作者设计了相应的评估指标和测试用例。

关键创新：Mem-Gallery的关键创新在于其数据集和评估框架的设计。数据集的创新之处在于其多模态性和长期性，能够更好地模拟真实世界的对话场景。评估框架的创新之处在于其系统性和全面性，能够从多个维度评估MLLM Agent的记忆能力。

关键设计：Mem-Gallery数据集包含多轮对话，每轮对话包含文本信息和视觉信息。对话的长度和复杂度都经过精心设计，以确保能够充分测试MLLM Agent的记忆能力。评估框架包含三个功能维度：记忆提取和测试时适应、记忆推理和记忆知识管理。每个维度都包含多个评估指标和测试用例，以确保能够全面评估MLLM Agent的记忆能力。具体的参数设置、损失函数、网络结构等技术细节取决于被评估的MLLM Agent的具体实现。

📊 实验亮点

通过在Mem-Gallery上对13个记忆系统进行基准测试，研究表明，显式多模态信息保留和记忆组织对于提高MLLM Agent的记忆能力至关重要。实验还揭示了现有模型在记忆推理和知识管理方面存在局限性，并且面临效率瓶颈。这些发现为未来的研究方向提供了重要的指导。

🎯 应用场景

Mem-Gallery的研究成果可应用于开发更智能、更自然的对话系统，例如智能客服、虚拟助手和教育机器人。通过提高MLLM Agent的长期记忆能力，可以使其更好地理解用户的意图，提供更个性化、更有效的服务。此外，该研究还可以促进多模态信息处理和知识管理领域的发展。

📄 摘要（原文）

Long-term memory is a critical capability for multimodal large language model (MLLM) agents, particularly in conversational settings where information accumulates and evolves over time. However, existing benchmarks either evaluate multi-session memory in text-only conversations or assess multimodal understanding within localized contexts, failing to evaluate how multimodal memory is preserved, organized, and evolved across long-term conversational trajectories. Thus, we introduce Mem-Gallery, a new benchmark for evaluating multimodal long-term conversational memory in MLLM agents. Mem-Gallery features high-quality multi-session conversations grounded in both visual and textual information, with long interaction horizons and rich multimodal dependencies. Building on this dataset, we propose a systematic evaluation framework that assesses key memory capabilities along three functional dimensions: memory extraction and test-time adaptation, memory reasoning, and memory knowledge management. Extensive benchmarking across thirteen memory systems reveals several key findings, highlighting the necessity of explicit multimodal information retention and memory organization, the persistent limitations in memory reasoning and knowledge management, as well as the efficiency bottleneck of current models.

Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册