ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents

作者: Xing Fu, Yulin Hu, Mengtong Ji, Haozhen Li, Yixin Sun, Weixiang Zhao, Yanyan Zhao, Bing Qin

分类: cs.CL

发布日期: 2026-05-26

💡 一句话要点

提出ENPMR-Bench基准，评估情感支持对话中主动记忆检索能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感支持Agent 主动记忆检索 情感需求感知 基准数据集 马斯洛需求层次理论

📋 核心要点

现有记忆增强的语言Agent在情感支持应用中，忽略了记忆在塑造用户情感体验中的作用，通常只将其视为事实检索工具。
本文提出ENPMR-Bench基准，旨在评估Agent理解用户潜在情感需求并主动检索相关记忆以提供共情支持的能力。
实验表明，现有检索方法在共情得分上存在明显不足，思维链提示虽有改善，但仍有较大差距，揭示了当前Agent的局限性。

📝 摘要（中文）

本文提出了ENPMR-Bench，一个用于评估情感需求感知的主动记忆检索（ENPMR）能力的基准，该能力对于情感支持Agent至关重要，使其能够推断用户的潜在情感需求并主动检索合适的记忆以支持共情互动。ENPMR-Bench基于马斯洛的需求层次理论，包含超过1800个记忆增强的对话，并定义了情感需求和支持性记忆类型之间的结构化映射。实验结果表明，当前的检索范式，包括基于嵌入的方法和LLM驱动的方法，都存在显著缺陷，共情得分远低于理想记忆条件。虽然思维链提示在一定程度上改善了推断的情感需求和检索的记忆之间的一致性，但仍然存在显著的性能差距。这些发现揭示了当前Agent的关键局限性，并为通过需求敏感的记忆检索来推进个性化情感支持指明了方向。

🔬 方法详解

问题定义：现有记忆增强的语言Agent在情感支持领域，通常将记忆视为一种事实检索工具，而忽略了记忆在理解和回应用户潜在情感需求方面的重要作用。这导致Agent难以提供真正具有共情能力的支持，无法有效塑造用户的情感体验。因此，如何让Agent能够感知用户的情感需求，并主动检索相关的记忆以提供个性化的情感支持，是一个亟待解决的问题。

核心思路：本文的核心思路是构建一个基准数据集，用于评估Agent在情感需求感知和主动记忆检索方面的能力。该基准数据集基于马斯洛的需求层次理论，将情感需求与支持性记忆类型进行结构化映射，从而为Agent提供明确的目标和评估标准。通过在该基准上进行实验，可以系统地评估现有检索方法的优缺点，并为未来的研究提供指导。

技术框架：ENPMR-Bench基准包含以下几个主要组成部分：1) 超过1800个记忆增强的对话，这些对话模拟了真实的情感支持场景；2) 基于马斯洛需求层次理论的情感需求分类体系；3) 情感需求与支持性记忆类型之间的结构化映射；4) 一套评估指标，用于衡量Agent在情感需求感知和记忆检索方面的性能。研究者可以使用该基准来评估各种检索方法，包括基于嵌入的方法和LLM驱动的方法。

关键创新：ENPMR-Bench的关键创新在于其对情感需求的结构化建模和与记忆类型的映射。以往的记忆检索研究通常关注于事实信息的检索，而忽略了情感因素。ENPMR-Bench通过将情感需求纳入考虑范围，并将其与支持性记忆类型联系起来，从而为Agent提供了更明确的目标和更有效的检索策略。此外，ENPMR-Bench还提供了一套全面的评估指标，用于衡量Agent在情感需求感知和记忆检索方面的性能，这有助于研究者更好地理解现有方法的优缺点，并为未来的研究提供指导。

关键设计：ENPMR-Bench的关键设计包括：1) 基于马斯洛需求层次理论的情感需求分类体系，该体系将情感需求分为生理需求、安全需求、爱和归属感需求、尊重需求和自我实现需求等五个层次；2) 情感需求与支持性记忆类型之间的结构化映射，该映射定义了每种情感需求对应的支持性记忆类型，例如，当用户表达安全需求时，Agent可以检索相关的安全提示或安全保障信息；3) 一套评估指标，包括准确率、召回率和共情得分等，用于衡量Agent在情感需求感知和记忆检索方面的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有检索范式在ENPMR-Bench上表现出显著的性能缺陷，共情得分远低于理想记忆条件。基于嵌入的方法和LLM驱动的方法都难以准确感知用户的情感需求并检索到合适的记忆。虽然思维链提示在一定程度上改善了推断的情感需求和检索的记忆之间的一致性，但仍然存在显著的性能差距，表明现有Agent在情感需求感知和记忆检索方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于开发更具共情能力的情感支持Agent，例如心理健康助手、在线咨询机器人等。这些Agent能够更好地理解用户的潜在情感需求，并主动提供个性化的支持和建议，从而改善用户的情感体验和心理健康状况。未来，该研究还可以扩展到其他领域，例如教育、医疗和社会服务等，为人们提供更人性化的智能服务。

📄 摘要（原文）

Memory-augmented language agents are increasingly deployed in affective applications such as emotional support, where understanding and responding to users' latent emotional needs is critical. However, existing research often treats memory as a tool for factual retrieval, overlooking its role in shaping users' emotional experiences. In this work, we introduce ENPMR-Bench, a benchmark for evaluating Emotional Need-aware Proactive Memory Retrieval (ENPMR), a core capability that enables agents to infer users' latent emotional needs and proactively retrieve appropriate memories to support empathetic interaction. Grounded in Maslow's hierarchy of needs, ENPMR-Bench includes over 1,800 memory-augmented dialogues and defines structured mappings between emotional needs and supportive memory types. Experimental results demonstrate that current retrieval paradigms, including both embedding-based and LLM-driven approaches, exhibit substantial deficiencies, with empathy scores significantly lagging behind golden memory conditions. While chain-of-thought prompting improves the alignment between inferred emotional needs and retrieved memories to some extent, a notable performance gap remains. Together, these findings reveal critical limitations in current agents and outline directions for advancing personalized emotional support through need-sensitive memory retrieval.

ENPMR-Bench: Benchmarking Proactive Memory Retrieval for Emotional Support Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理