AI generates well-liked but templatic empathic responses

📄 arXiv: 2604.08479v1 📥 PDF

作者: Emma Gueorguieva, Hongli Zhan, Jina Suh, Javier Hernandez, Tatiana Lau, Junyi Jessy Li, Desmond C. Ong

分类: cs.CL

发布日期: 2026-04-09


💡 一句话要点

大型语言模型生成受欢迎但模板化的共情回复

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 共情回复 情感支持 模板化 自然语言处理

📋 核心要点

  1. 现有研究表明,人们越来越依赖LLM提供情感支持,但LLM共情回复的机制尚不明确。
  2. 该论文提出LLM通过学习并部署一种通用的共情模板来生成回复,从而获得较好的用户评价。
  3. 实验分析了大量LLM和人类生成的共情回复,验证了LLM回复的高度模板化,并构建了共情策略分类法。

📝 摘要(中文)

最近的研究表明,越来越多的人转向大型语言模型(LLM)寻求情感支持,并且人们认为LLM的回复比人类撰写的回复更具共情性。我们认为造成这种现象的原因是:LLM已经学习并持续部署了一种广受欢迎的表达共情的模板。我们开发了一个包含10种共情语言“策略”的分类法,包括验证他人的感受和释义,并将此分类法应用于表征人类和LLM在撰写共情回复时产生的语言。通过比较总共n = 3,265个AI生成(由六个模型生成)和n = 1,290个人类撰写的回复的两项研究,我们发现LLM的回复在语篇功能层面上高度公式化。我们发现了一个模板——一个结构化的策略序列——匹配了83-90%的LLM回复(在保留样本中为60-83%),并且在匹配时覆盖了81-92%的回复内容。相比之下,人类撰写的回复更加多样化。最后,我们讨论了AI生成共情的未来影响。

🔬 方法详解

问题定义:该论文旨在分析大型语言模型(LLM)生成共情回复的机制,并揭示其与人类生成回复的差异。现有方法缺乏对LLM共情回复策略的深入分析,无法解释为何LLM生成的回复通常被认为更具共情性。论文关注的痛点是LLM是否通过某种固定的模式或模板来生成共情回复,以及这种模式与人类生成回复的差异。

核心思路:论文的核心思路是构建一个共情语言策略的分类体系,然后利用该体系分析LLM和人类生成的共情回复,从而揭示LLM回复的模板化特征。通过对比LLM和人类回复中不同策略的使用频率和组合方式,可以发现LLM是否倾向于使用某种固定的策略序列。

技术框架:论文的技术框架主要包括以下几个步骤:1)构建共情语言策略分类法,包含10种策略,如验证感受、释义等;2)收集大量LLM和人类生成的共情回复;3)使用分类法对回复进行标注,统计不同策略的使用频率和组合方式;4)分析LLM和人类回复的策略序列,寻找LLM回复中的模板;5)定量评估模板的覆盖率和准确率。

关键创新:论文最重要的技术创新点在于提出了一个共情语言策略的分类法,并将其应用于分析LLM和人类生成的共情回复。该分类法为研究LLM的共情能力提供了一个新的视角,并为揭示LLM回复的模板化特征提供了有效的工具。与现有方法相比,该论文更加关注LLM回复的语篇功能层面,而不仅仅是表面上的情感表达。

关键设计:论文的关键设计包括:1)共情语言策略分类法的具体内容,包括10种策略的定义和示例;2)实验数据的收集和标注方法,确保标注的准确性和一致性;3)模板匹配算法的设计,用于自动识别LLM回复中的模板;4)评估指标的选择,如模板覆盖率和准确率,用于定量评估模板的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

研究发现,83-90%的LLM回复可以匹配到一个预定义的共情模板,该模板覆盖了回复内容的81-92%。相比之下,人类回复更加多样化,模板匹配度较低。这些结果表明,LLM在生成共情回复时高度依赖模板,缺乏灵活性和个性化。

🎯 应用场景

该研究成果可应用于改进AI情感支持系统,使其在提供共情回复时更加多样化和个性化。同时,该研究也为理解LLM的语言生成机制提供了新的视角,有助于开发更具创造性和适应性的AI系统。未来的研究可以探索如何打破LLM的模板化回复,使其能够更好地理解和回应人类的情感需求。

📄 摘要(原文)

Recent research shows that greater numbers of people are turning to Large Language Models (LLMs) for emotional support, and that people rate LLM responses as more empathic than human-written responses. We suggest a reason for this success: LLMs have learned and consistently deploy a well-liked template for expressing empathy. We develop a taxonomy of 10 empathic language "tactics" that include validating someone's feelings and paraphrasing, and apply this taxonomy to characterize the language that people and LLMs produce when writing empathic responses. Across a set of 2 studies comparing a total of n = 3,265 AI-generated (by six models) and n = 1,290 human-written responses, we find that LLM responses are highly formulaic at a discourse functional level. We discovered a template -- a structured sequence of tactics -- that matches between 83--90% of LLM responses (and 60--83\% in a held out sample), and when those are matched, covers 81--92% of the response. By contrast, human-written responses are more diverse. We end with a discussion of implications for the future of AI-generated empathy.