M$^3$Exam: Benchmarking Multimodal Memory for Realistic User-Agent Interactions
作者: Zhengjun Huang, Wenxuan Liu, Zhoujin Tian, Wei Chen, Junle Chen, Yuqian Wu, Fangyuan Zhang, Qintian Guo, Xiaofang Zhou
分类: cs.CL
发布日期: 2026-06-05
💡 一句话要点
提出M$^3$Exam以解决多模态用户代理交互中的记忆评估问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态记忆 用户代理交互 查询中心 跨模态推理 基准测试 智能助手 信息推理
📋 核心要点
- 现有基准测试假设人类之间的交互,未能评估真实多模态文件交互的推理能力和隐含信息解读。
- 提出M$^3$Exam基准,专注于真实用户代理交互的查询中心多模态对话记忆,涵盖多维评估。
- M$^3$Proctor方法提高了13%的准确性,同时将索引构建时间和检索标记减少超过70%。
📝 摘要(中文)
随着语言代理在多模态信息中的应用日益增多,现有基准测试多假设人类之间的交互,缺乏对真实多模态文件交互的推理和隐含用户信息的解读。为此,我们引入了M$^3$Exam,这是一个基于真实用户代理交互的查询中心多模态对话记忆基准,涵盖跨模态基础和隐含信息推理的多维评估。对MLLMs和记忆系统的基准测试揭示了跨模态基础、跨会话推理和累积多模态上下文的效率成本之间的持续差距。此外,我们提出了M$^3$Proctor,这是一种多模态记忆方法,能够检测查询模态偏差,仅在需要时消耗原始视觉源,提高了13%的准确性,同时将索引构建时间和检索的标记减少了70%以上。
🔬 方法详解
问题定义:论文旨在解决现有多模态记忆评估基准在真实用户代理交互中的不足,特别是缺乏对复杂推理和隐含信息的评估。
核心思路:通过引入M$^3$Exam基准,聚焦于查询中心的多模态对话记忆,提供更全面的评估框架,解决现有方法的局限性。
技术框架:整体架构包括多模态输入的处理、查询中心的记忆管理和评估模块,支持跨模态基础和隐含信息推理的评估。
关键创新:M$^3$Proctor方法的核心创新在于能够检测查询模态偏差,并仅在需要时消耗视觉源,显著提高了效率和准确性。
关键设计:在设计中,采用了动态索引构建策略,优化了损失函数以平衡不同模态的信息利用,确保了系统的高效性和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,M$^3$Proctor方法在准确性上提高了13%,同时在索引构建时间和检索标记上减少了超过70%,显著提升了多模态记忆系统的效率和性能。
🎯 应用场景
该研究的潜在应用领域包括智能助手、客服机器人和教育领域的对话系统,能够提升用户体验和交互质量。未来,M$^3$Exam基准将为多模态交互系统的评估提供标准化参考,推动相关技术的发展。
📄 摘要(原文)
Language agents are increasingly deployed over accumulating multimodal information, yet existing benchmarks assume a human-human form with sparse visuals and straightforward content, evaluating neither reasoning over authentic multimodal file interaction nor the interpretation of concealed user information. We therefore introduce M$^3$Exam, a query-centric multimodal conversational memory benchmark built on realistic user-agent interaction, with multi-dimensional evaluation spanning cross-modal grounding and implicit information inference. Benchmarking MLLMs and memory systems reveals persistent gaps in cross-modal grounding, cross session reasoning, and the efficiency cost of accumulating multimodal context. We further propose M$^3$Proctor, a multimodal memory method that detects query modality bias and consumes raw visual sources only on demand, improving accuracy by 13% while cutting index-construction time and retrieved tokens by over 70%.