ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models

作者: Haiquan Zhao, Lingyu Li, Shisong Chen, Shuqi Kong, Jiaan Wang, Kexin Huang, Tianle Gu, Yixu Wang, Wang Jian, Dandan Liang, Zhixu Li, Yan Teng, Yanghua Xiao, Yingchun Wang

分类: cs.CL

发布日期: 2024-06-21 (更新: 2024-10-28)

备注: EMNLP 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出ESC-Eval框架以评估大语言模型的情感支持对话

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感支持对话 大语言模型 角色扮演 模型评估 心理健康 自动化评分 人机交互

📋 核心要点

现有的情感支持对话模型评估方法不够系统，难以准确反映模型的实际表现。
提出ESC-Eval框架，通过角色扮演代理与ESC模型进行互动，并进行人工评估以提高评估的准确性。
实验结果显示，ESC导向的LLM在情感支持能力上优于一般AI助手LLM，但仍未达到人类的表现水平。

📝 摘要（中文）

情感支持对话（ESC）是一个重要的应用，旨在减轻人类压力、提供情感指导，并最终提升人类的心理和身体健康。随着大语言模型（LLMs）的发展，许多研究者将LLMs应用于ESC模型。然而，这些基于LLM的ESC的评估仍然不确定。为此，本文提出了ESC评估框架（ESC-Eval），通过角色扮演代理与ESC模型互动，并对互动对话进行人工评估。我们重新组织了来自七个现有数据集的2801个角色扮演卡片，定义角色，并训练了一个名为ESC-Role的特定角色扮演模型。通过ESC-Role和组织的角色卡片，我们系统地对14个LLM进行了实验，结果表明ESC导向的LLM在ESC能力上优于一般AI助手LLM，但仍存在与人类表现之间的差距。此外，为了自动化未来ESC模型的评分过程，我们开发了ESC-RANK，基于注释数据训练，评分性能超过了GPT-4的35分。

🔬 方法详解

问题定义：本研究旨在解决现有情感支持对话模型评估方法的不确定性和不足，尤其是缺乏系统性和准确性的问题。

核心思路：通过引入角色扮演代理与ESC模型进行互动，结合人工评估的方式，提供一种新的评估框架，以更真实地反映模型的情感支持能力。

技术框架：ESC-Eval框架包括三个主要模块：角色扮演卡片的组织、角色扮演模型ESC-Role的训练，以及对14个不同LLM的系统性实验与评估。

关键创新：最重要的技术创新在于引入角色扮演代理进行互动评估，这一方法与传统的评估方式有本质区别，能够更好地模拟真实对话场景。

关键设计：在设计中，使用了2801个角色扮演卡片，ESC-Role模型的训练使其表现出更高的混淆性，此外，ESC-RANK的开发使得评分过程自动化，提升了评估效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ESC导向的LLM在情感支持能力上显著优于一般AI助手LLM，具体表现为在多轮对话中的互动质量更高，且ESC-RANK的评分性能超过了GPT-4的35分，显示出良好的自动化评估能力。

🎯 应用场景

该研究的潜在应用领域包括心理健康支持、在线咨询服务和情感智能助手等。通过提升大语言模型在情感支持对话中的表现，能够为用户提供更为有效的情感指导，改善心理健康服务的质量，具有重要的实际价值和社会影响。

📄 摘要（原文）

Emotion Support Conversation (ESC) is a crucial application, which aims to reduce human stress, offer emotional guidance, and ultimately enhance human mental and physical well-being. With the advancement of Large Language Models (LLMs), many researchers have employed LLMs as the ESC models. However, the evaluation of these LLM-based ESCs remains uncertain. Inspired by the awesome development of role-playing agents, we propose an ESC Evaluation framework (ESC-Eval), which uses a role-playing agent to interact with ESC models, followed by a manual evaluation of the interactive dialogues. In detail, we first re-organize 2,801 role-playing cards from seven existing datasets to define the roles of the role-playing agent. Second, we train a specific role-playing model called ESC-Role which behaves more like a confused person than GPT-4. Third, through ESC-Role and organized role cards, we systematically conduct experiments using 14 LLMs as the ESC models, including general AI-assistant LLMs (ChatGPT) and ESC-oriented LLMs (ExTES-Llama). We conduct comprehensive human annotations on interactive multi-turn dialogues of different ESC models. The results show that ESC-oriented LLMs exhibit superior ESC abilities compared to general AI-assistant LLMs, but there is still a gap behind human performance. Moreover, to automate the scoring process for future ESC models, we developed ESC-RANK, which trained on the annotated data, achieving a scoring performance surpassing 35 points of GPT-4. Our data and code are available at https://github.com/AIFlames/Esc-Eval.

ESC-Eval: Evaluating Emotion Support Conversations in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理