StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall

📄 arXiv: 2604.26243v1 📥 PDF

作者: Yerong Wu, Tianxing Wu, Minghao Zhu, Hangyu Sha, Haofen Wang

分类: cs.CL, cs.AI

发布日期: 2026-04-29

备注: 20 pages, accepted by ACL 2026 (main)


💡 一句话要点

提出StratMem-Bench基准,用于评估虚拟角色对话中策略性记忆使用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚拟角色对话 策略性记忆 对话生成 基准测试 大型语言模型

📋 核心要点

  1. 现有对话系统通常将记忆视为静态信息库,缺乏策略性地利用记忆进行事实需求和社会互动的能力。
  2. 论文提出StratMem-Bench基准,包含异构记忆池,要求虚拟角色策略性地选择和使用记忆进行对话。
  3. 实验表明,现有大型语言模型在区分必需和不相关记忆方面表现良好,但在处理支持性记忆时表现不佳。

📝 摘要(中文)

为了使虚拟角色实现更逼真的人类对话,不仅需要简单地记忆和回忆过去的事件,还需要策略性地利用记忆来满足事实需求和社会互动。现有的记忆利用相关基准(例如,记忆增强生成、长期对话等)忽略了这种细微差别,主要将记忆视为静态的事实存储库,而不是在对话中策略性部署的动态资源。为了解决这个差距,我们设计了StratMem-Bench,这是一个新的基准,用于评估以角色为中心的对话中策略性记忆的使用。该数据集包含657个实例,其中虚拟角色必须驾驭包含必需、支持和不相关记忆的异构记忆池。我们还提出了一个包含不同评估指标的框架,包括严格记忆合规性、记忆整合质量、主动丰富度得分和条件不相关率,以评估虚拟角色的策略性记忆使用能力。在StratMem-Bench上利用最先进的大型语言模型作为虚拟角色的实验表明,所有模型在区分必需和不相关的记忆方面表现良好,但在将支持性记忆引入决策过程后,模型表现不佳。

🔬 方法详解

问题定义:现有对话系统,特别是虚拟角色对话系统,在利用记忆方面存在不足。它们通常将记忆视为简单的信息存储,缺乏策略性地选择和利用记忆来满足对话中的事实需求和社交互动。现有基准测试也主要关注事实回忆,忽略了记忆的动态使用和策略性部署,导致模型难以进行更自然和人性化的对话。

核心思路:论文的核心思路是构建一个更具挑战性的基准测试,该基准测试不仅评估模型的事实回忆能力,还评估其策略性地使用记忆的能力。通过引入包含必需、支持和不相关记忆的异构记忆池,迫使模型在对话中进行更复杂的决策,从而更好地模拟人类对话中的记忆使用方式。

技术框架:StratMem-Bench数据集包含657个实例,每个实例都涉及一个虚拟角色和一段对话上下文。每个实例都包含一个异构记忆池,其中包含:必需记忆(回答问题所需)、支持记忆(提供额外信息或上下文)和不相关记忆(干扰模型)。论文还提出了一个评估框架,包含以下指标:严格记忆合规性(模型是否使用了所有必需记忆)、记忆整合质量(模型是否有效地整合了记忆)、主动丰富度得分(模型是否利用支持记忆丰富对话)和条件不相关率(模型是否忽略了不相关记忆)。

关键创新:StratMem-Bench的关键创新在于其对策略性记忆使用的关注。与现有基准测试不同,它不仅评估模型的事实回忆能力,还评估其在复杂对话场景中选择、整合和利用记忆的能力。此外,该数据集引入了支持性记忆的概念,这使得模型需要进行更细致的判断和决策。

关键设计:数据集的构建过程包括人工编写对话和记忆,并进行严格的质量控制。评估指标的设计旨在全面评估模型的策略性记忆使用能力。例如,“主动丰富度得分”旨在衡量模型是否能够利用支持性记忆来提供更丰富和有趣的对话内容。数据集的规模和多样性也保证了评估的可靠性和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的大型语言模型在区分必需和不相关的记忆方面表现良好,但在处理支持性记忆时表现不佳。这表明,现有模型在策略性记忆使用方面仍有很大的提升空间。StratMem-Bench提供了一个有价值的平台,用于评估和改进模型的策略性记忆使用能力,并推动对话系统向更智能和人性化的方向发展。

🎯 应用场景

该研究成果可应用于各种虚拟角色对话系统,例如智能助手、游戏角色和社交机器人。通过提高虚拟角色策略性使用记忆的能力,可以使其对话更自然、更具吸引力,从而提升用户体验。此外,该基准测试还可以促进对记忆增强对话生成模型的研究和开发,推动对话系统领域的进步。

📄 摘要(原文)

Achieving realistic human-like conversation for virtual characters requires not only a simple memorization and recall of past events, but also the strategic utilization of memory to meet factual needs and social engagement. Current memory utilization relevant (e.g., memory-augmented generation, long-term dialogue, and etc.) benchmarks overlook this nuance, treating memory primarily as a static repository of facts rather than a dynamic resource to be strategically deployed in dialogues. To address this gap, we design StratMem-Bench, a new benchmark to evaluate strategic memory use in character-centric dialogues. This dataset comprises 657 instances where virtual characters must navigate heterogeneous memory pools containing required, supportive, and irrelevant memories. We also propose a framework with different evaluation metrics including Strict Memory Compliance, Memory Integration Quality, Proactive Enrichment Score and Conditional Irrelevance Rate, to evaluate strategic memory use capabilities of virtual characters. Experiments on StratMem-Bench which leverage the state-of-the-art large language models as virtual characters show that all models perform well at distinguishing between required and irrelevant memories, but struggle once supportive memories are introduced into the decision process.