GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations

作者: Jingbo Yang, Kwei-Herng Lai, Xiaowen Wang, Shiyu Chang, Yaar Harari, Evgeniy Gabrilovich

分类: cs.CL

发布日期: 2026-05-14

💡 一句话要点

GroupMemBench：用于评估LLM Agent在多方对话中记忆能力的基准测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 多方对话 记忆系统 基准测试 群体动态

📋 核心要点

现有LLM Agent记忆系统和基准测试主要针对单用户场景，无法有效评估多方对话中的记忆能力。
GroupMemBench通过图结构合成多方对话，并结合用户角色和目标受众，模拟真实场景。
实验表明，现有记忆系统在GroupMemBench上表现不佳，表明多用户记忆仍面临挑战。

📝 摘要（中文）

大型语言模型（LLM）Agent越来越多地被用作个人助理和工作场所的协作者，它们的效用取决于记忆系统，这些系统可以在长时间的对话中提取、检索和应用信息。然而，现有的记忆系统和基准测试都是围绕二元的、单用户设置构建的，即使实际部署通常跨越多个用户与Agent以及彼此交互的群体和渠道。这种不匹配导致了群体记忆的三个属性未被测量：（i）超越串联式一对一聊天的群体动态，（ii）说话者相关的信念追踪，需要对每个用户进行记忆建模，以及（iii）受众适应的语言，其中心智理论的转变会产生特定角色的词汇。我们引入了GroupMemBench，这是一个暴露所有这三个属性的基准测试。一个基于图的合成管道生成具有可控回复结构的多方对话，并将每条消息置于每个用户角色和目标受众的条件下。然后，一个对抗性查询管道将每个问题绑定到六个类别中的特定提问者，涵盖多跳推理、知识更新、术语歧义、用户隐式推理、时间推理和弃权，并迭代搜索具有挑战性的、现实的查询，以反映全面的记忆能力。对领先的记忆系统进行基准测试显示出明显的崩溃：最强的系统平均准确率仅达到46.0%，知识更新为27.1%，术语歧义为37.7%，而一个简单的BM25基线匹配或超过了大多数Agent记忆系统。这表明当前的记忆摄取会消除群体记忆所依赖的结构和词汇特征，使得多用户记忆远未解决。

🔬 方法详解

问题定义：现有的大语言模型Agent记忆系统和基准测试主要集中在单用户、二元对话场景，无法有效评估和提升Agent在多方对话环境下的记忆能力。这种局限性导致Agent难以处理复杂的群体动态、说话者相关的信念追踪以及受众适应的语言等问题，严重影响了Agent在实际工作场景中的应用效果。

核心思路：论文的核心思路是构建一个更贴近真实多方对话场景的基准测试，即GroupMemBench。该基准测试旨在全面评估Agent在处理群体动态、说话者信念追踪和受众适应语言等方面的能力。通过设计具有挑战性的查询，促使Agent更好地理解和利用多方对话中的信息。

技术框架：GroupMemBench包含两个主要组成部分：对话合成管道和对抗性查询管道。对话合成管道基于图结构生成多方对话，其中每个消息都受到用户角色和目标受众的影响。对抗性查询管道则生成与特定提问者相关的、具有挑战性的查询，涵盖多跳推理、知识更新、术语歧义、用户隐式推理、时间推理和弃权等多个类别。整体流程是先合成对话，然后针对对话生成问题，最后评估Agent回答问题的准确率。

关键创新：GroupMemBench的关键创新在于其能够模拟真实的多方对话场景，并针对性地评估Agent在处理群体动态、说话者信念追踪和受众适应语言等方面的能力。与以往的单用户基准测试相比，GroupMemBench更具挑战性和实用性，能够更有效地推动Agent记忆系统的发展。另一个创新点是对抗性查询生成，能够自动生成具有挑战性的query，更全面地评估agent的记忆能力。

关键设计：在对话合成管道中，论文使用图结构来表示对话参与者之间的关系，并根据用户角色和目标受众来生成消息。在对抗性查询管道中，论文设计了六个不同类别的查询，并使用迭代搜索的方法来生成具有挑战性的查询。具体参数设置和损失函数等细节在论文中未详细描述，属于未知信息。

📊 实验亮点

实验结果表明，现有的记忆系统在GroupMemBench上的表现远低于预期，最强的系统平均准确率仅为46.0%，在知识更新和术语歧义方面表现更差，甚至不如简单的BM25基线。这表明现有的记忆系统在处理多方对话时存在严重缺陷，多用户记忆问题远未解决。

🎯 应用场景

该研究成果可应用于开发更智能的个人助理和工作场所协作Agent。通过提升Agent在多方对话中的记忆能力，可以使其更好地理解用户需求、跟踪对话历史、并提供更个性化的服务。未来，该技术有望应用于智能会议系统、在线客服、以及其他需要处理复杂多方交互的场景。

📄 摘要（原文）

Large Language Model (LLM) agents increasingly serve as personal assistants and workplace collaborators, where their utility depends on memory systems that extract, retrieve, and apply information across long-running conversations. However, both existing memory systems and benchmarks are built around the dyadic, single-user setup, even though real deployments routinely span groups and channels with multiple users interacting with the agent and with each other. This mismatch leaves three properties of group memory unmeasured: (i) group dynamics that go beyond concatenated one-on-one chats, (ii) speaker-grounded belief tracking, where the per-user memory modeling is needed, and (iii) audience-adapted language, where Theory-of-Mind shifts produce role-specific vocabulary. We introduce GroupMemBench, a benchmark that exposes all three. A graph-grounded synthesis pipeline produces multi-party conversations with controllable reply structure and conditions each message on per-user personas and target audiences. An adversarial query pipeline then binds every question to a specific asker across six categories, spanning multi-hop reasoning, knowledge update, term ambiguity, user-implicit reasoning, temporal reasoning, and abstention, and iteratively searches challenging, realistic queries that reflect comprehensive memory capability. Benchmarking leading memory systems exposes a sharp collapse: the strongest one reaches only 46.0% average accuracy, with knowledge update at 27.1% and term ambiguity at 37.7%, while a simple BM25 baseline matches or exceeds most agent memory systems. This indicates current memory ingestion erases the structural and lexical features group memory depends on, leaving multi-user memory far from solved.

GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理