SMMBench: A Benchmark for Source-Distributed Multimodal Agent Memory
作者: Huacan Chai, Yukai Wang, Yingxuan Yang, Dan Peng, Yuanyi Song, Zhihui Fu, Weiwen Liu, Jianghao Lin, Jun Wang, Weinan Zhang
分类: cs.CL
发布日期: 2026-05-15
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出SMMBench基准,评估智能体在多源异构信息下的多模态记忆能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态记忆 跨源推理 智能体 基准测试 信息检索 知识图谱 冲突解决
📋 核心要点
- 现有基准测试主要关注单一上下文中的多模态推理,忽略了智能体在多源异构信息中整合记忆的能力。
- SMMBench旨在评估智能体在跨多个独立来源检索、对齐和组合多模态证据的能力,弥补现有基准的不足。
- 实验表明,现有记忆型和检索型模型在SMMBench上表现不佳,突显了源分布式多模态记忆的挑战性。
📝 摘要(中文)
现有的多模态记忆推理基准主要在预先组装的上下文中评估系统,但低估了智能体利用独立来源证据的能力。我们认为,源分布式的记忆组合是多模态智能体记忆中一个重要且未被充分研究的瓶颈,尤其是在相关证据分散在对话、个人资料、屏幕截图、表格、图像和文档等异构信息源中时。为了解决这个问题,我们引入了源分布式多模态记忆基准(SMMBench),它衡量智能体是否能够检索、对齐和组合分散在多个来源的多模态证据,而不是在单个上下文中进行推理。SMMBench评估四个核心能力:(1)跨源多模态推理;(2)冲突解决;(3)偏好推理;(4)基于记忆的动作预测。该基准包含1877个样本,基于264个来源。在代表性的记忆型和检索型基线上的实验表明,当前的系统仍然在这些能力上挣扎,这使得源分布式多模态记忆成为多模态智能体一个重要且仍未被充分评估的挑战。我们的数据可在https://huggingface.co/datasets/HuacanChai/SMMBench获取。
🔬 方法详解
问题定义:现有benchmark主要评估智能体在单一预构建上下文中的多模态记忆推理能力,忽略了真实世界中信息通常分散在多个独立来源的情况。这些来源可能包含异构数据,如对话、文档、图像等,智能体需要从这些来源中检索、对齐和组合信息才能进行有效的推理。现有方法难以处理这种源分布式多模态记忆问题,导致智能体在复杂场景下的表现不佳。
核心思路:SMMBench的核心思路是构建一个基准数据集,其中推理所需的证据分散在多个独立的来源中。智能体需要首先从这些来源中检索相关信息,然后将这些信息对齐并组合起来,才能完成推理任务。这种设计模拟了真实世界中智能体需要处理的复杂场景,可以更全面地评估智能体的多模态记忆能力。
技术框架:SMMBench包含以下几个关键组成部分:1) 多源异构数据:数据集包含来自不同来源的多模态数据,如对话、个人资料、屏幕截图、表格、图像和文档。2) 任务定义:SMMBench定义了四个核心任务,包括跨源多模态推理、冲突解决、偏好推理和基于记忆的动作预测。3) 评估指标:SMMBench使用一系列评估指标来衡量智能体在不同任务上的表现,包括准确率、召回率等。
关键创新:SMMBench最重要的创新在于其源分布式的数据构建方式。与现有benchmark不同,SMMBench中的证据分散在多个独立的来源中,这使得智能体需要进行跨源的信息检索和组合才能完成推理任务。这种设计更贴近真实世界的场景,可以更全面地评估智能体的多模态记忆能力。
关键设计:SMMBench包含1877个样本,基于264个来源。数据集的构建过程包括数据收集、数据清洗、任务定义和数据标注等步骤。为了保证数据的质量,SMMBench采用了严格的数据标注流程,并对标注结果进行了多次审核。
🖼️ 关键图片
📊 实验亮点
在SMMBench上,研究者评估了多种记忆型和检索型基线模型。实验结果表明,现有模型在跨源多模态推理、冲突解决、偏好推理和基于记忆的动作预测等任务上表现不佳。这表明源分布式多模态记忆仍然是一个具有挑战性的研究方向,需要进一步的研究和探索。
🎯 应用场景
SMMBench的研究成果可应用于开发更智能的对话系统、智能助手和机器人。这些系统需要能够从多个来源收集信息,理解用户意图,并根据用户的偏好做出决策。例如,智能助手可以根据用户的日历、联系人信息和社交媒体动态,为用户推荐合适的餐厅或活动。
📄 摘要(原文)
Existing benchmarks for multimodal memory reasoning largely evaluate systems within pre-assembled contexts, but under-evaluate whether agents can use evidence distributed across independently originated sources. We argue that source-distributed memory composition is an important and under-examined bottleneck in multimodal agent memory, especially when relevant evidence is fragmented across heterogeneous artifacts such as conversations, profiles, screenshots, tables, images, and documents. To address this gap, we introduce Source-distributed Multimodal Memory Benchmark(SMMBench), which measures whether agents can retrieve, align, and compose multimodal evidence scattered across multiple sources rather than reason within a single curated context. SMMBench evaluates four core capabilities: (1) cross-source multimodal reasoning; (2) conflict resolution; (3) preference reasoning; (4) memory-grounded action prediction. The benchmark contains 1877 samples grounded in 264 sources. Experiments on representative memory-style and retrieval-based baselines show that current systems still struggle on these capabilities, positioning source-distributed multimodal memory as an important and still under-evaluated challenge for multimodal agents. Our data are available at https://huggingface.co/datasets/HuacanChai/SMMBench.