Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues

📄 arXiv: 2412.20264v1 📥 PDF

作者: Henry J. Xie, Jinghan Zhang, Xinhao Zhang, Kunpeng Liu

分类: cs.CL

发布日期: 2024-12-28

备注: Accepted by IEEE BigData 2024


💡 一句话要点

利用大语言模型进行评分:对话中衡量回应同理心的研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 同理心评分 对话系统 特征工程 可解释性

📋 核心要点

  1. 现有方法难以有效衡量对话中回应的同理心,缺乏可解释性,阻碍了LLM在社会科学领域的应用。
  2. 该论文提出利用显式特征(如MITI代码和同理心子因素)近似LLM的评分能力,从而提高可解释性。
  3. 实验表明,使用显式特征训练的分类器能够接近甚至匹配微调LLM的同理心评分性能。

📝 摘要(中文)

近年来,大型语言模型(LLMs)在完成复杂任务方面的能力日益增强。其中一项常见的应用是评分,即为某个对象分配一个特定范围内的数值。本文旨在理解LLMs如何进行评分,特别是在同理心评分的背景下。我们开发了一个新颖而全面的框架,用于研究LLMs在衡量和评分对话回应中的同理心方面的有效性,以及可以采用哪些方法来加深我们对LLM评分的理解。我们的策略是用显式且可解释的特征来近似最先进和微调LLMs的性能。我们使用对话的各种特征训练分类器,包括嵌入、动机性访谈治疗完整性(MITI)代码、LLMs提出的一组显式同理心子因素,以及MITI代码和显式子因素的组合。结果表明,仅使用嵌入时,可以达到接近通用LLMs的性能;当利用LLM评分的MITI代码和显式子因素时,训练的分类器可以与微调LLMs的性能紧密匹配。我们采用特征选择方法来推导出同理心评分过程中最关键的特征。我们的工作为理解LLM同理心评分提供了一个新的视角,并有助于LLM社区探索LLM评分在社会科学研究中的潜力。

🔬 方法详解

问题定义:论文旨在研究如何利用大型语言模型(LLMs)来衡量和评分对话回应中的同理心。现有方法主要依赖于黑盒的LLM,缺乏可解释性,难以理解LLM评分的内在机制,并且难以针对特定领域进行优化。

核心思路:论文的核心思路是使用显式且可解释的特征来近似LLM的评分能力。通过提取对话中的关键特征,例如动机性访谈治疗完整性(MITI)代码和LLM提出的同理心子因素,并训练分类器,从而模拟LLM的评分过程。这种方法旨在提高评分过程的可解释性,并为进一步优化LLM的同理心评分提供指导。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集和预处理:收集对话数据,并进行必要的清洗和格式化。2) 特征提取:从对话中提取各种特征,包括词嵌入、MITI代码和LLM生成的同理心子因素。3) 分类器训练:使用提取的特征训练分类器,例如支持向量机(SVM)或随机森林。4) 性能评估:评估训练的分类器在同理心评分任务上的性能,并与LLM的性能进行比较。5) 特征选择:使用特征选择方法识别对同理心评分最关键的特征。

关键创新:该论文的关键创新在于提出了一种利用显式特征近似LLM同理心评分的方法。与直接使用黑盒LLM相比,该方法具有更高的可解释性,并且可以针对特定领域进行优化。此外,论文还提出了一种新的同理心评估框架,该框架结合了MITI代码和LLM生成的同理心子因素。

关键设计:论文的关键设计包括:1) 使用动机性访谈治疗完整性(MITI)代码作为同理心评估的指标。2) 利用LLM生成显式的同理心子因素,例如理解、支持和尊重。3) 使用特征选择方法,例如递归特征消除(RFE),来识别对同理心评分最关键的特征。4) 采用多种分类器进行实验,例如支持向量机(SVM)、随机森林和逻辑回归,以评估不同特征组合的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,仅使用词嵌入即可达到接近通用LLM的性能。更重要的是,当利用LLM评分的MITI代码和显式子因素时,训练的分类器能够紧密匹配微调LLM的性能。特征选择结果揭示了同理心评分过程中最关键的特征。

🎯 应用场景

该研究成果可应用于心理咨询、客户服务、教育等领域,用于评估对话中的同理心水平,辅助咨询师或客服人员提供更有效的沟通。此外,该研究有助于理解LLM在社会科学领域的应用潜力,并为开发更具同理心的人工智能系统提供指导。

📄 摘要(原文)

In recent years, Large Language Models (LLMs) have become increasingly more powerful in their ability to complete complex tasks. One such task in which LLMs are often employed is scoring, i.e., assigning a numerical value from a certain scale to a subject. In this paper, we strive to understand how LLMs score, specifically in the context of empathy scoring. We develop a novel and comprehensive framework for investigating how effective LLMs are at measuring and scoring empathy of responses in dialogues, and what methods can be employed to deepen our understanding of LLM scoring. Our strategy is to approximate the performance of state-of-the-art and fine-tuned LLMs with explicit and explainable features. We train classifiers using various features of dialogues including embeddings, the Motivational Interviewing Treatment Integrity (MITI) Code, a set of explicit subfactors of empathy as proposed by LLMs, and a combination of the MITI Code and the explicit subfactors. Our results show that when only using embeddings, it is possible to achieve performance close to that of generic LLMs, and when utilizing the MITI Code and explicit subfactors scored by an LLM, the trained classifiers can closely match the performance of fine-tuned LLMs. We employ feature selection methods to derive the most crucial features in the process of empathy scoring. Our work provides a new perspective toward understanding LLM empathy scoring and helps the LLM community explore the potential of LLM scoring in social science studies.