H2HTalk: Evaluating Large Language Models as Emotional Companion

📄 arXiv: 2507.03543v1 📥 PDF

作者: Boyang Wang, Yalun Wu, Hongcheng Guo, Zhoujun Li

分类: cs.CL, cs.AI

发布日期: 2025-07-04


💡 一句话要点

H2HTalk:构建情感陪伴大语言模型评测基准,解决心理支持评估难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感陪伴 大型语言模型 评测基准 情感智能 心理支持 安全依恋人格 对话系统

📋 核心要点

  1. 现有情感陪伴大语言模型缺乏全面、细致的评估标准,难以衡量其在真实场景下的表现。
  2. H2HTalk基准通过构建包含多种情境的对话数据集,并引入安全依恋人格模块,模拟真实情感支持场景。
  3. 实验结果表明,现有LLM在长期规划和记忆保持方面存在挑战,尤其是在用户需求不明确或动态变化时。

📝 摘要(中文)

随着对数字情感支持需求的增长,大型语言模型(LLM)陪伴者展现出提供真实、随时可用的共情的潜力,但模型的发展速度超过了对其进行严格评估的速度。我们提出了Heart-to-Heart Talk (H2HTalk),这是一个评估陪伴者在人格发展和共情互动方面的基准,它平衡了情感智能和语言流畅性。H2HTalk包含4,650个精心策划的场景,涵盖对话、回忆和行程规划,反映了真实世界的支持性对话,在规模和多样性上大大超过了以往的数据集。我们整合了一个安全依恋人格(SAP)模块,该模块实现了依恋理论原则,以实现更安全的互动。使用我们统一的协议对50个LLM进行基准测试表明,长期规划和记忆保持仍然是关键挑战,当用户需求是隐含的或在对话中演变时,模型会遇到困难。H2HTalk建立了第一个用于情感智能陪伴者的综合基准。我们发布所有材料,以推进能够提供有意义和安全的心理支持的LLM的开发。

🔬 方法详解

问题定义:现有的大型语言模型在作为情感陪伴者时,缺乏一个全面且细致的评估基准。以往的数据集规模较小,情境不够多样,难以充分评估模型在真实世界情感支持场景下的表现。此外,如何确保模型在提供情感支持时的安全性,避免潜在的负面影响,也是一个重要的挑战。

核心思路:H2HTalk的核心思路是构建一个大规模、多样化的情感陪伴对话数据集,并结合安全依恋人格(SAP)模块,以更真实地模拟情感支持场景。通过统一的评估协议,对不同LLM进行基准测试,从而全面评估其在情感智能方面的能力。

技术框架:H2HTalk基准包含以下几个主要组成部分:1) 大规模对话数据集:包含4,650个精心策划的场景,涵盖对话、回忆和行程规划等多种情境。2) 安全依恋人格(SAP)模块:基于依恋理论,用于指导模型生成更安全、更具支持性的回复。3) 统一评估协议:用于对不同LLM进行基准测试,评估其在人格发展和共情互动方面的表现。

关键创新:H2HTalk的关键创新在于:1) 构建了第一个专门用于评估情感智能陪伴者的综合基准。2) 数据集规模和多样性远超以往,更贴近真实世界的情感支持场景。3) 引入了安全依恋人格(SAP)模块,提高了模型在提供情感支持时的安全性。

关键设计:SAP模块的设计基于依恋理论,通过设定特定的参数来控制模型在对话中的行为,例如,避免过度依赖、保持适当的距离、提供积极的支持等。数据集的构建过程中,采用了人工标注和数据增强等技术,确保数据的质量和多样性。评估指标包括情感理解、共情能力、对话流畅度等多个方面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

H2HTalk基准测试了50个LLM,结果表明,现有模型在长期规划和记忆保持方面存在显著挑战,尤其是在处理用户需求不明确或动态变化的情境时。这表明,未来的研究需要更加关注如何提高LLM在复杂情感互动中的表现,使其能够更好地理解和满足用户的需求。

🎯 应用场景

H2HTalk的研究成果可应用于开发更安全、更有效的情感陪伴型AI。这些AI可以为有心理健康需求的人群提供支持,例如,缓解孤独感、提供情绪疏导、协助解决人际关系问题等。此外,该基准还可以促进LLM在情感计算领域的进一步发展,推动AI技术在心理健康领域的应用。

📄 摘要(原文)

As digital emotional support needs grow, Large Language Model companions offer promising authentic, always-available empathy, though rigorous evaluation lags behind model advancement. We present Heart-to-Heart Talk (H2HTalk), a benchmark assessing companions across personality development and empathetic interaction, balancing emotional intelligence with linguistic fluency. H2HTalk features 4,650 curated scenarios spanning dialogue, recollection, and itinerary planning that mirror real-world support conversations, substantially exceeding previous datasets in scale and diversity. We incorporate a Secure Attachment Persona (SAP) module implementing attachment-theory principles for safer interactions. Benchmarking 50 LLMs with our unified protocol reveals that long-horizon planning and memory retention remain key challenges, with models struggling when user needs are implicit or evolve mid-conversation. H2HTalk establishes the first comprehensive benchmark for emotionally intelligent companions. We release all materials to advance development of LLMs capable of providing meaningful and safe psychological support.