ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models

📄 arXiv: 2406.14952v3 📥 PDF

作者: Haiquan Zhao, Lingyu Li, Shisong Chen, Shuqi Kong, Jiaan Wang, Kexin Huang, Tianle Gu, Yixu Wang, Wang Jian, Dandan Liang, Zhixu Li, Yan Teng, Yanghua Xiao, Yingchun Wang

分类: cs.CL

发布日期: 2024-06-21 (更新: 2024-10-28)

备注: EMNLP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出ESC-Eval框架以评估大语言模型的情感支持对话

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感支持对话 大语言模型 角色扮演 模型评估 心理健康 自动化评分 人机交互

📋 核心要点

  1. 现有的情感支持对话模型评估方法不够系统,难以准确反映模型的实际表现。
  2. 提出ESC-Eval框架,通过角色扮演代理与ESC模型进行互动,并进行人工评估以提高评估的准确性。
  3. 实验结果显示,ESC导向的LLM在情感支持能力上优于一般AI助手LLM,但仍未达到人类的表现水平。

📝 摘要(中文)

情感支持对话(ESC)是一个重要的应用,旨在减轻人类压力、提供情感指导,并最终提升人类的心理和身体健康。随着大语言模型(LLMs)的发展,许多研究者将LLMs应用于ESC模型。然而,这些基于LLM的ESC的评估仍然不确定。为此,本文提出了ESC评估框架(ESC-Eval),通过角色扮演代理与ESC模型互动,并对互动对话进行人工评估。我们重新组织了来自七个现有数据集的2801个角色扮演卡片,定义角色,并训练了一个名为ESC-Role的特定角色扮演模型。通过ESC-Role和组织的角色卡片,我们系统地对14个LLM进行了实验,结果表明ESC导向的LLM在ESC能力上优于一般AI助手LLM,但仍存在与人类表现之间的差距。此外,为了自动化未来ESC模型的评分过程,我们开发了ESC-RANK,基于注释数据训练,评分性能超过了GPT-4的35分。

🔬 方法详解

问题定义:本研究旨在解决现有情感支持对话模型评估方法的不确定性和不足,尤其是缺乏系统性和准确性的问题。

核心思路:通过引入角色扮演代理与ESC模型进行互动,结合人工评估的方式,提供一种新的评估框架,以更真实地反映模型的情感支持能力。

技术框架:ESC-Eval框架包括三个主要模块:角色扮演卡片的组织、角色扮演模型ESC-Role的训练,以及对14个不同LLM的系统性实验与评估。

关键创新:最重要的技术创新在于引入角色扮演代理进行互动评估,这一方法与传统的评估方式有本质区别,能够更好地模拟真实对话场景。

关键设计:在设计中,使用了2801个角色扮演卡片,ESC-Role模型的训练使其表现出更高的混淆性,此外,ESC-RANK的开发使得评分过程自动化,提升了评估效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ESC导向的LLM在情感支持能力上显著优于一般AI助手LLM,具体表现为在多轮对话中的互动质量更高,且ESC-RANK的评分性能超过了GPT-4的35分,显示出良好的自动化评估能力。

🎯 应用场景

该研究的潜在应用领域包括心理健康支持、在线咨询服务和情感智能助手等。通过提升大语言模型在情感支持对话中的表现,能够为用户提供更为有效的情感指导,改善心理健康服务的质量,具有重要的实际价值和社会影响。

📄 摘要(原文)

Emotion Support Conversation (ESC) is a crucial application, which aims to reduce human stress, offer emotional guidance, and ultimately enhance human mental and physical well-being. With the advancement of Large Language Models (LLMs), many researchers have employed LLMs as the ESC models. However, the evaluation of these LLM-based ESCs remains uncertain. Inspired by the awesome development of role-playing agents, we propose an ESC Evaluation framework (ESC-Eval), which uses a role-playing agent to interact with ESC models, followed by a manual evaluation of the interactive dialogues. In detail, we first re-organize 2,801 role-playing cards from seven existing datasets to define the roles of the role-playing agent. Second, we train a specific role-playing model called ESC-Role which behaves more like a confused person than GPT-4. Third, through ESC-Role and organized role cards, we systematically conduct experiments using 14 LLMs as the ESC models, including general AI-assistant LLMs (ChatGPT) and ESC-oriented LLMs (ExTES-Llama). We conduct comprehensive human annotations on interactive multi-turn dialogues of different ESC models. The results show that ESC-oriented LLMs exhibit superior ESC abilities compared to general AI-assistant LLMs, but there is still a gap behind human performance. Moreover, to automate the scoring process for future ESC models, we developed ESC-RANK, which trained on the annotated data, achieving a scoring performance surpassing 35 points of GPT-4. Our data and code are available at https://github.com/AIFlames/Esc-Eval.