H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions
作者: Shiping Zhu, Yibo Yang, Zhengyang Wang, Tiancheng Shen, Dandan Guo, Ming-Hsuan Yang
分类: cs.CL
发布日期: 2026-06-08
备注: 22 pages, 6 figures
💡 一句话要点
提出H2HMem以解决人际互动中的多模态记忆评估问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态记忆 人际互动 大型语言模型 记忆评估 对话分析 推理能力 异步信息 复杂对话
📋 核心要点
- 现有的记忆基准主要集中于单一用户的文本交互,无法有效应对多模态和复杂对话现象的挑战。
- H2HMem通过引入双人和多方对话的多模态信息流,提供了一个新的评估框架,专注于记忆回忆、推理和应用能力。
- 实验结果揭示了当前代理在多模态记忆构建和利用方面的显著不足,强调了未来改进的必要性。
📝 摘要(中文)
随着大型语言模型代理在会议助手和临床文档系统等人际互动场景中的应用日益增多,这些代理需要观察对话并保留信息以便后续查询。然而,现有的记忆基准主要集中于单用户的文本交互,未能有效捕捉人际互动中的复杂性。为此,本文提出了H2HMem,一个用于评估复杂人际互动中记忆能力的多模态记忆基准。H2HMem涵盖双人和多方对话,评估代理在记忆回忆、推理和应用等三个维度的表现。实验结果显示,现有代理在跨模态、参与者和会话中构建、保留和利用记忆方面存在显著局限,表明下一代大型语言模型代理有很大的改进空间。
🔬 方法详解
问题定义:本文旨在解决现有记忆基准无法有效评估多模态人际互动中代理的记忆能力的问题。现有方法主要关注单用户的文本交互,未能考虑复杂的对话现象和多参与者的信息冲突。
核心思路:H2HMem的核心思路是通过引入多模态信息流和复杂对话结构,创建一个全面的评估框架,以更好地测试代理在真实人际互动中的记忆能力。这样的设计能够更真实地反映代理在实际应用中的表现。
技术框架:H2HMem的整体架构包括数据收集、对话分析和评估指标三个主要模块。数据收集阶段涵盖了双人和多方对话的多模态信息,分析阶段则关注对话中的记忆回忆和推理过程,评估指标则用于量化代理的表现。
关键创新:H2HMem的最大创新在于其多模态记忆评估框架,能够同时处理来自不同参与者的异步信息和复杂的对话现象。这与传统的单一文本交互评估方法有本质区别。
关键设计:在设计中,H2HMem采用了多模态数据输入,结合了记忆回忆和推理的损失函数,以确保代理能够有效地构建和利用记忆。同时,网络结构设计考虑了多参与者的互动特性,以增强模型的适应性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,当前的先进代理在多模态记忆的构建和利用方面存在显著局限,尤其是在处理异步信息和复杂对话时。具体而言,代理在记忆回忆和推理任务中的表现低于预期,表明有必要进行进一步的优化和改进。
🎯 应用场景
H2HMem的研究成果具有广泛的应用潜力,尤其是在会议助手、临床文档系统和其他需要人机协作的场景中。通过提升代理的记忆能力,可以显著改善用户体验和工作效率。此外,该基准也为未来的多模态人工智能系统提供了重要的评估标准和研究方向。
📄 摘要(原文)
Large language model agents are increasingly deployed in human-human interaction settings, such as meeting assistants and clinical documentation systems, where they must observe conversations and retain information for downstream queries. Unlike traditional human-assistant settings, these environments are inherently multimodal, involve complex discourse phenomena such as anaphora and deixis, and contain asynchronous or conflicting information from multiple participants. However, existing memory benchmarks largely focus on single-user, text-only interactions, failing to capture these challenges. To address this gap, we introduce H2HMem, a Human-to-Human Multimodal Memory Benchmark for evaluating memory capabilities in complex human-human interactions. H2HMem includes both dyadic and multi-party conversations with multimodal information streams, and evaluates agents along three dimensions: memory recall, reasoning, and application. Experiments with advanced agents reveal substantial limitations in constructing, retaining, and utilizing memories across modalities, participants, and sessions, highlighting substantial room for improvement in next-generation LLM agents.