Towards Emotion Consistency Analysis of Large Language Models in Emotional Conversational Contexts

📄 arXiv: 2605.06476v1 📥 PDF

作者: Sneha Oram, Ojaswita Bhushan, Pushpak Bhattacharyya

分类: cs.CL

发布日期: 2026-05-07

备注: Under-review


💡 一句话要点

分析大语言模型在情感对话语境下的逻辑一致性与虚假信念易感性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 逻辑一致性 情感计算 虚假信念 注意力分析 认知偏差

📋 核心要点

  1. 核心问题:LLMs在情感对话中缺乏逻辑一致性,且极易被查询中包含的虚假前提误导,导致模型产生错误的认知偏差。
  2. 方法要点:通过将模型自生成的回复作为后续查询的输入,构建包含虚假前提的测试集,并结合注意力分数分析模型的认知优先级。
  3. 实验效果:研究证实LLMs在情感语境下表现欠佳,特别是在中度情感干扰下,模型对虚假信息的辨别能力显著下降。

📝 摘要(中文)

本文旨在分析大语言模型(LLMs)在情感驱动的对话语境下,对其自身生成回复的一致性。研究将模型生成的文本作为后续查询的输入,通过三个不同强度等级的虚假前提查询,在极端和中度情感两个维度上评估模型的表现。实验选取了Claude-3.5-haiku、GPT-4o-mini及Mistral-7B三个模型。研究发现,LLMs在处理此类任务时表现低于平均水平,且极易受到查询中嵌入的虚假信念影响,尤其是在中度情感语境下表现更为脆弱。此外,基于注意力分数的分析表明,模型在处理过程中存在从评估性思维向生成性思维的优先级偏移。该研究结果为LLMs在高风险、情感敏感场景下的部署提供了重要的警示与参考。

🔬 方法详解

问题定义:论文旨在解决大语言模型在情感对话中缺乏自我一致性(Self-Consistency)的问题。现有模型在面对带有虚假前提(False Presuppositions)的情感化查询时,往往无法识别错误假设,反而倾向于顺从错误逻辑,这在心理咨询或高风险决策场景中具有潜在危害。

核心思路:研究采用“递归查询”策略,即让模型先生成一段情感化回复,再将该回复作为后续查询的输入,通过注入不同强度的虚假前提,观察模型是否会修正或盲从之前的错误逻辑,从而量化模型的认知脆弱性。

技术框架:实验流程分为三个阶段:首先,触发模型生成初始情感回复;其次,构建包含虚假前提的后续查询(分为三个强度等级);最后,通过对比模型对虚假前提的采纳率,并利用注意力分数(Attention Scores)分析模型在处理过程中的内部权重分布。

关键创新:创新性地引入了“情感维度”与“虚假前提强度”的交叉分析,揭示了模型在不同情感强度下处理逻辑一致性时的差异,并首次通过注意力机制的偏移量化了模型从“逻辑评估”向“内容生成”的思维模式切换。

关键设计:实验选取了Claude-3.5-haiku、GPT-4o-mini及Mistral-7B作为代表性模型,通过控制变量法设置极端与中度情感语境,并设计了递进式的虚假前提查询,以精确捕捉模型在逻辑一致性上的边界条件。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLMs在处理虚假前提查询时表现普遍低于预期,且在中度情感语境下的易感性显著高于极端情感语境。注意力分数分析进一步揭示,模型在面对此类查询时,其内部注意力机制会发生显著偏移,导致模型优先考虑生成连贯文本而非进行逻辑评估,验证了模型在复杂情感对话中的认知局限性。

🎯 应用场景

该研究对于心理健康咨询机器人、情感陪伴AI及法律咨询等高风险、情感敏感领域具有重要价值。研究结果提示开发者在部署LLM时,必须引入更强的逻辑校验机制,以防止模型在情感交互中因盲从用户或自身错误前提而产生误导性建议。

📄 摘要(原文)

In this work, we conduct an analysis to examine the consistency of Large Language Models (LLMs) with respect to their own generated responses in an emotionally-driven conversational context. Specifically, the text generated by LLM is framed as a query to the same model, and its responses are subsequently assessed. This is performed with three queries across two dimensions of extreme and moderate emotions. The three queries are, in particular, false claim queries that contain inherently wrong assumptions (false presuppositions) in increasing order of intensity. Two commercial models, Claude-3.5-haiku, GPT4o-mini, and a medium-sized model, Mistral-7B, are considered in the study. Our findings indicate that LLMs exhibit below-average performance and remain vulnerable to false beliefs embedded within queries. This susceptibility is especially pronounced for moderate emotional content. Furthermore, an extended attention-score-based analysis highlights a shift in models' priority from evaluative to generative. The results raise important considerations for LLMs' deployment in high-stakes, emotionally sensitive contexts.