Feel the Difference? A Comparative Analysis of Emotional Arcs in Real and LLM-Generated CBT Sessions
作者: Xiaoyi Wang, Jiwei Zhang, Guangtao Zhang, Honglei Guo
分类: cs.CL
发布日期: 2025-08-28 (更新: 2025-12-17)
备注: Accepted at 2025 EMNLP findings,19 page,2 figures
期刊: In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 19999-20017
DOI: 10.18653/v1/2025.findings-emnlp.1089
🔗 代码/项目: GITLAB
💡 一句话要点
对比分析真实与LLM生成的CBT对话情感弧,揭示LLM在情感表达上的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感弧分析 认知行为疗法 大型语言模型 心理健康NLP 对话系统
📋 核心要点
- 现有心理健康NLP研究依赖LLM生成合成对话,但其情感表达的真实性有待考量。
- 论文提出RealCBT数据集,并采用Utterance Emotion Dynamics框架对比真实与合成CBT对话的情感弧。
- 实验表明,合成对话在情感变异性、情感丰富度和反应调节模式上与真实对话存在显著差异。
📝 摘要(中文)
大型语言模型(LLMs)生成的合成治疗对话越来越多地应用于心理健康自然语言处理领域,以模拟咨询场景、训练模型并补充有限的真实数据。然而,这些合成对话是否能捕捉到真实治疗中细微的情感动态仍不清楚。本文引入了RealCBT,一个真实的认知行为疗法(CBT)对话数据集,并首次对真实和LLM生成的CBT会话中的情感弧进行了比较分析。我们调整了Utterance Emotion Dynamics框架,以分析效价、唤醒度和支配度等维度上的细粒度情感轨迹。我们的分析涵盖了来自RealCBT数据集的真实会话和来自CACTUS数据集的合成对话的完整对话和单独的说话者角色(咨询师和客户)。我们发现,虽然合成对话流畅且结构连贯,但它们在关键的情感属性上与真实对话存在差异:真实会话表现出更大的情感变异性、更多情感丰富的语言以及更真实的反应和调节模式。此外,情感弧相似度在所有配对中仍然很低,真实说话者和合成说话者之间的对齐尤其弱。这些发现强调了当前LLM生成的治疗数据的局限性,并强调了情感保真度在心理健康应用中的重要性。为了支持未来的研究,我们的数据集RealCBT已在https://gitlab.com/xiaoyi.wang/realcbt-dataset上发布。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)生成的合成认知行为疗法(CBT)对话在情感表达上与真实CBT对话存在差异的问题。现有方法依赖于这些合成数据进行模型训练和场景模拟,但缺乏对合成数据情感真实性的深入评估,可能导致模型在实际应用中表现不佳。
核心思路:论文的核心思路是通过对比分析真实CBT对话和LLM生成的CBT对话的情感弧,来评估LLM在情感表达方面的能力。通过量化情感弧的差异,揭示LLM在模拟真实情感动态方面的局限性,从而为未来改进LLM生成治疗对话提供指导。
技术框架:论文的技术框架主要包括以下几个步骤:1) 构建RealCBT数据集,包含真实的CBT对话;2) 使用CACTUS数据集作为LLM生成的合成CBT对话;3) 采用Utterance Emotion Dynamics框架,提取对话中每个utterance的情感特征(效价、唤醒度和支配度);4) 分析真实对话和合成对话在情感变异性、情感丰富度和反应调节模式等方面的差异;5) 计算情感弧的相似度,评估真实对话和合成对话的情感一致性。
关键创新:论文的关键创新在于首次对真实CBT对话和LLM生成的CBT对话的情感弧进行了全面的比较分析。通过引入RealCBT数据集和采用Utterance Emotion Dynamics框架,论文能够细粒度地分析对话中的情感动态,并量化真实对话和合成对话在情感表达上的差异。
关键设计:论文的关键设计包括:1) RealCBT数据集的构建,确保数据的真实性和多样性;2) Utterance Emotion Dynamics框架的应用,能够捕捉对话中细微的情感变化;3) 情感弧相似度的计算,采用合适的相似度度量方法,例如余弦相似度或动态时间规整(DTW),来评估情感弧的一致性。论文还关注了说话者角色(咨询师和客户)对情感表达的影响,分别分析了不同角色在真实对话和合成对话中的情感弧。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM生成的CBT对话在情感变异性、情感丰富度和反应调节模式上与真实CBT对话存在显著差异。具体而言,真实对话表现出更大的情感波动和更丰富的情感表达,而合成对话则相对平淡。情感弧相似度分析显示,真实对话和合成对话之间的相似度较低,表明LLM在模拟真实情感动态方面仍有很大的提升空间。
🎯 应用场景
该研究成果可应用于心理健康领域的多个方面,例如评估和改进LLM生成的治疗对话,为心理健康干预提供更真实和有效的模拟环境。此外,该研究还可以帮助开发更具情感智能的对话系统,提升人机交互的质量和用户体验。未来的研究可以探索如何利用真实数据来微调LLM,使其能够更好地模拟真实的情感动态。
📄 摘要(原文)
Synthetic therapy dialogues generated by large language models (LLMs) are increasingly used in mental health NLP to simulate counseling scenarios, train models, and supplement limited real-world data. However, it remains unclear whether these synthetic conversations capture the nuanced emotional dynamics of real therapy. In this work, we introduce RealCBT, a dataset of authentic cognitive behavioral therapy (CBT) dialogues, and conduct the first comparative analysis of emotional arcs between real and LLM-generated CBT sessions. We adapt the Utterance Emotion Dynamics framework to analyze fine-grained affective trajectories across valence, arousal, and dominance dimensions. Our analysis spans both full dialogues and individual speaker roles (counselor and client), using real sessions from the RealCBT dataset and synthetic dialogues from the CACTUS dataset. We find that while synthetic dialogues are fluent and structurally coherent, they diverge from real conversations in key emotional properties: real sessions exhibit greater emotional variability, more emotion-laden language, and more authentic patterns of reactivity and regulation. Moreover, emotional arc similarity remains low across all pairings, with especially weak alignment between real and synthetic speakers. These findings underscore the limitations of current LLM-generated therapy data and highlight the importance of emotional fidelity in mental health applications. To support future research, our dataset RealCBT is released at https://gitlab.com/xiaoyi.wang/realcbt-dataset.