Incongruent Positivity: When Miscalibrated Positivity Undermines Online Supportive Conversations

📄 arXiv: 2509.10184v1 📥 PDF

作者: Leen Almajed, Abeer ALdayel

分类: cs.CL

发布日期: 2025-09-12

备注: This paper is under review


💡 一句话要点

研究表明LLM在情感支持对话中易产生不恰当的积极回应,并提出检测方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感支持对话 大型语言模型 不协调积极性 情感识别 弱监督学习

📋 核心要点

  1. 现有情感支持对话系统中,LLM容易产生不恰当的积极回应,缺乏对用户情感的准确理解和共情。
  2. 通过分析真实对话数据和LLM生成的回应,研究不协调积极性的表现,并提出相应的检测方法。
  3. 实验表明,提出的分类器能有效检测不同类型的不协调积极性,为构建更贴合用户情感需求的对话系统提供支持。

📝 摘要(中文)

在情感支持对话中,善意的积极回应有时会适得其反,显得轻视、最小化问题或不切实际地乐观。本文研究了这种“不协调的积极性”现象,将其定义为人类和大型语言模型(LLM)生成的回应中,校准不当的积极支持表达。为此,我们收集了Reddit上真实的用户-助手对话,涵盖不同情感强度,并使用LLM为相同情境生成了额外的回应。我们将这些对话按强度分为两类:轻微(关系紧张和一般建议)和严重(悲伤和焦虑对话)。这种分类使我们能够比较不同风险情境下支持性回应的差异。分析表明,LLM更倾向于通过轻视和最小化的语气表达不切实际的积极性,尤其是在高风险情境下。为了进一步研究这一现象的潜在维度,我们使用具有强烈和微弱情感反应的数据集对LLM进行了微调。此外,我们开发了一个弱监督多标签分类器集成(DeBERTa和MentalBERT),该分类器在检测两种关注类型(轻微和严重)的不协调积极性方面表现出改进。我们的发现揭示了超越生成通用积极回应的需求,转而研究协调的支持措施,以平衡积极情感与情感认可。这种方法为使大型语言模型与在线支持对话中的情感期望保持一致提供了见解,为构建能够感知上下文并保持信任的在线对话系统铺平了道路。

🔬 方法详解

问题定义:论文旨在解决情感支持对话中,大型语言模型(LLM)生成的回应常常表现出“不协调的积极性”的问题。这种不协调性体现在LLM的回应可能过于乐观、轻视用户的情感或提供不切实际的建议,从而导致用户体验不佳。现有方法缺乏对情感强度的细致考量,容易生成泛化的积极回应,无法满足用户在不同情境下的情感需求。

核心思路:论文的核心思路是深入分析真实情感支持对话数据,识别并量化“不协调的积极性”的各种表现形式。通过对比人类和LLM生成的回应,揭示LLM在情感理解和表达方面的不足。此外,论文还通过微调LLM和构建分类器,提高LLM生成更贴合用户情感需求的回应的能力。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集与标注:收集Reddit上的情感支持对话数据,并根据情感强度(轻微和严重)进行分类。2) LLM回应生成:使用LLM为相同情境生成额外的回应。3) 不协调积极性分析:对比人类和LLM生成的回应,分析LLM在情感理解和表达方面的不足。4) 模型微调:使用具有强烈和微弱情感反应的数据集对LLM进行微调,提高其情感理解和表达能力。5) 分类器构建:开发一个弱监督多标签分类器集成(DeBERTa和MentalBERT),用于检测不协调积极性的类型。

关键创新:论文的关键创新点在于:1) 首次系统性地研究了情感支持对话中“不协调的积极性”现象。2) 提出了一个弱监督多标签分类器集成,能够有效检测不同类型的不协调积极性。3) 通过对比人类和LLM生成的回应,揭示了LLM在情感理解和表达方面的不足,为改进LLM的情感支持能力提供了新的思路。与现有方法相比,该论文更加关注情感的细微差别,并尝试通过技术手段提高LLM的情感智能。

关键设计:在分类器构建方面,论文采用了DeBERTa和MentalBERT两种预训练语言模型,并进行集成。DeBERTa在自然语言理解方面表现出色,而MentalBERT则专门针对心理健康领域的文本进行了预训练。通过集成这两种模型,可以提高分类器在检测不协调积极性方面的准确性和鲁棒性。此外,论文还采用了弱监督学习的方法,利用少量标注数据训练分类器,降低了标注成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的弱监督多标签分类器集成(DeBERTa和MentalBERT)在检测不协调积极性方面表现出显著的改进。该分类器在两种关注类型(轻微和严重)上均取得了较高的准确率和召回率,表明其能够有效识别不同类型的不协调积极性。与基线模型相比,该分类器在性能上取得了显著提升。

🎯 应用场景

该研究成果可应用于各种在线情感支持平台和聊天机器人,帮助它们生成更贴合用户情感需求的回应,提高用户满意度和信任度。此外,该研究还可以为开发更具情感智能的AI系统提供指导,使其能够更好地理解和回应人类的情感需求,从而在医疗、教育等领域发挥更大的作用。

📄 摘要(原文)

In emotionally supportive conversations, well-intended positivity can sometimes misfire, leading to responses that feel dismissive, minimizing, or unrealistically optimistic. We examine this phenomenon of incongruent positivity as miscalibrated expressions of positive support in both human and LLM generated responses. To this end, we collected real user-assistant dialogues from Reddit across a range of emotional intensities and generated additional responses using large language models for the same context. We categorize these conversations by intensity into two levels: Mild, which covers relationship tension and general advice, and Severe, which covers grief and anxiety conversations. This level of categorization enables a comparative analysis of how supportive responses vary across lower and higher stakes contexts. Our analysis reveals that LLMs are more prone to unrealistic positivity through dismissive and minimizing tone, particularly in high-stakes contexts. To further study the underlying dimensions of this phenomenon, we finetune LLMs on datasets with strong and weak emotional reactions. Moreover, we developed a weakly supervised multilabel classifier ensemble (DeBERTa and MentalBERT) that shows improved detection of incongruent positivity types across two sorts of concerns (Mild and Severe). Our findings shed light on the need to move beyond merely generating generic positive responses and instead study the congruent support measures to balance positive affect with emotional acknowledgment. This approach offers insights into aligning large language models with affective expectations in the online supportive dialogue, paving the way toward context-aware and trust preserving online conversation systems.