H2HTalk: Evaluating Large Language Models as Emotional Companion

作者: Boyang Wang, Yalun Wu, Hongcheng Guo, Zhoujun Li

分类: cs.CL, cs.AI

发布日期: 2025-07-04

💡 一句话要点

H2HTalk：构建情感陪伴大语言模型评测基准，解决心理支持评估难题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感陪伴 大型语言模型 评测基准 情感智能 心理支持 安全依恋人格 对话系统

📋 核心要点

现有情感陪伴大语言模型缺乏全面、细致的评估标准，难以衡量其在真实场景下的表现。
H2HTalk基准通过构建包含多种情境的对话数据集，并引入安全依恋人格模块，模拟真实情感支持场景。
实验结果表明，现有LLM在长期规划和记忆保持方面存在挑战，尤其是在用户需求不明确或动态变化时。

📝 摘要（中文）

随着对数字情感支持需求的增长，大型语言模型（LLM）陪伴者展现出提供真实、随时可用的共情的潜力，但模型的发展速度超过了对其进行严格评估的速度。我们提出了Heart-to-Heart Talk (H2HTalk)，这是一个评估陪伴者在人格发展和共情互动方面的基准，它平衡了情感智能和语言流畅性。H2HTalk包含4,650个精心策划的场景，涵盖对话、回忆和行程规划，反映了真实世界的支持性对话，在规模和多样性上大大超过了以往的数据集。我们整合了一个安全依恋人格（SAP）模块，该模块实现了依恋理论原则，以实现更安全的互动。使用我们统一的协议对50个LLM进行基准测试表明，长期规划和记忆保持仍然是关键挑战，当用户需求是隐含的或在对话中演变时，模型会遇到困难。H2HTalk建立了第一个用于情感智能陪伴者的综合基准。我们发布所有材料，以推进能够提供有意义和安全的心理支持的LLM的开发。

🔬 方法详解

问题定义：现有的大型语言模型在作为情感陪伴者时，缺乏一个全面且细致的评估基准。以往的数据集规模较小，情境不够多样，难以充分评估模型在真实世界情感支持场景下的表现。此外，如何确保模型在提供情感支持时的安全性，避免潜在的负面影响，也是一个重要的挑战。

核心思路：H2HTalk的核心思路是构建一个大规模、多样化的情感陪伴对话数据集，并结合安全依恋人格（SAP）模块，以更真实地模拟情感支持场景。通过统一的评估协议，对不同LLM进行基准测试，从而全面评估其在情感智能方面的能力。

技术框架：H2HTalk基准包含以下几个主要组成部分：1) 大规模对话数据集：包含4,650个精心策划的场景，涵盖对话、回忆和行程规划等多种情境。2) 安全依恋人格（SAP）模块：基于依恋理论，用于指导模型生成更安全、更具支持性的回复。3) 统一评估协议：用于对不同LLM进行基准测试，评估其在人格发展和共情互动方面的表现。

关键创新：H2HTalk的关键创新在于：1) 构建了第一个专门用于评估情感智能陪伴者的综合基准。2) 数据集规模和多样性远超以往，更贴近真实世界的情感支持场景。3) 引入了安全依恋人格（SAP）模块，提高了模型在提供情感支持时的安全性。

关键设计：SAP模块的设计基于依恋理论，通过设定特定的参数来控制模型在对话中的行为，例如，避免过度依赖、保持适当的距离、提供积极的支持等。数据集的构建过程中，采用了人工标注和数据增强等技术，确保数据的质量和多样性。评估指标包括情感理解、共情能力、对话流畅度等多个方面。

🖼️ 关键图片

📊 实验亮点

H2HTalk基准测试了50个LLM，结果表明，现有模型在长期规划和记忆保持方面存在显著挑战，尤其是在处理用户需求不明确或动态变化的情境时。这表明，未来的研究需要更加关注如何提高LLM在复杂情感互动中的表现，使其能够更好地理解和满足用户的需求。

🎯 应用场景

H2HTalk的研究成果可应用于开发更安全、更有效的情感陪伴型AI。这些AI可以为有心理健康需求的人群提供支持，例如，缓解孤独感、提供情绪疏导、协助解决人际关系问题等。此外，该基准还可以促进LLM在情感计算领域的进一步发展，推动AI技术在心理健康领域的应用。

📄 摘要（原文）

As digital emotional support needs grow, Large Language Model companions offer promising authentic, always-available empathy, though rigorous evaluation lags behind model advancement. We present Heart-to-Heart Talk (H2HTalk), a benchmark assessing companions across personality development and empathetic interaction, balancing emotional intelligence with linguistic fluency. H2HTalk features 4,650 curated scenarios spanning dialogue, recollection, and itinerary planning that mirror real-world support conversations, substantially exceeding previous datasets in scale and diversity. We incorporate a Secure Attachment Persona (SAP) module implementing attachment-theory principles for safer interactions. Benchmarking 50 LLMs with our unified protocol reveals that long-horizon planning and memory retention remain key challenges, with models struggling when user needs are implicit or evolve mid-conversation. H2HTalk establishes the first comprehensive benchmark for emotionally intelligent companions. We release all materials to advance development of LLMs capable of providing meaningful and safe psychological support.

H2HTalk: Evaluating Large Language Models as Emotional Companion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理