Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers

📄 arXiv: 2406.14986v3 📥 PDF

作者: Manuel Mondal, Ljiljana Dolamic, Gérôme Bovet, Philippe Cudré-Mauroux, Julien Audiffren

分类: cs.AI, cs.CL

发布日期: 2024-06-21 (更新: 2025-06-17)


💡 一句话要点

提出Revealed Belief框架,揭示大语言模型在不确定性推理中存在的认知失调现象

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 认知失调 不确定性推理 文本补全 概率分布 模型评估 Revealed Belief

📋 核心要点

  1. 现有评估方法主要依赖多项选择题,可能无法全面反映LLM的真实推理能力。
  2. 论文提出Revealed Belief框架,通过分析文本补全的概率分布来评估LLM在不确定性下的推理能力。
  3. 实验表明,LLM在陈述正确答案时,其内在信念往往存在偏差和不一致,揭示了认知失调现象。

📝 摘要(中文)

多项选择题(MCQ)因其易于操作和评估,已成为评估大型语言模型(LLM)能力的常用方法。对LLM的陈述答案(即它们对MCQ的回答)的实验评估表明,它们似乎具有执行概率推理或掌握不确定性的能力。本文研究了这些能力是否可以在定制提示和MCQ之外进行衡量,方法是将这些问题重新表述为直接文本补全——LLM的基本计算单元。我们引入了Revealed Belief,这是一个评估框架,通过分析文本补全概率分布来评估LLM在需要不确定性推理的任务中的表现,从而补充MCQ评分。我们的研究结果表明,虽然LLM经常陈述正确的答案,但它们的Revealed Belief表明它们经常不一致地分配概率质量,表现出系统性偏差,并且在获得新证据时经常无法适当地更新它们的信念,从而对下游任务产生强大的潜在影响。这些结果表明,常见的评估方法可能只提供部分情况,并且需要更多的研究来评估其能力的范围和性质。

🔬 方法详解

问题定义:现有的大语言模型评估方法,特别是基于多项选择题(MCQ)的评估,可能无法充分捕捉模型在不确定性推理方面的真实能力。模型可能通过一些技巧或模式识别来获得正确答案,而并非真正理解问题背后的逻辑和概率关系。因此,现有方法难以准确评估模型在实际应用中处理复杂和不确定性问题的能力。

核心思路:论文的核心思路是通过分析大语言模型在文本补全任务中的概率分布,来推断模型在给定上下文下的真实信念(Revealed Belief)。与直接询问模型答案不同,该方法关注模型对不同选项的概率分配,从而更深入地了解模型对不确定性的处理方式。这种方法可以揭示模型在陈述答案和内在信念之间的差异,即认知失调现象。

技术框架:Revealed Belief框架主要包含以下几个步骤:1) 将需要不确定性推理的任务转化为文本补全问题。2) 使用大语言模型对文本进行补全,并记录模型对不同补全结果的概率分配。3) 分析概率分布,计算模型对不同选项的置信度,并与模型的陈述答案进行比较。4) 通过设计特定的实验场景,例如引入新的证据或信息,观察模型如何更新其信念。

关键创新:该方法的核心创新在于,它不再仅仅关注模型的最终答案是否正确,而是深入分析模型在生成答案过程中的概率分布,从而揭示模型在不确定性推理方面的内在机制。这种方法可以更全面、更准确地评估大语言模型在处理复杂和不确定性问题时的能力。与传统的基于MCQ的评估方法相比,Revealed Belief框架能够发现模型在陈述答案和内在信念之间的差异,从而揭示模型的认知失调现象。

关键设计:论文中设计了多种实验场景,例如:1) 评估模型在给定初始信息的情况下对不同选项的置信度。2) 引入新的证据,观察模型如何更新其信念。3) 分析模型在不同情境下的概率分配,以识别系统性偏差。此外,论文还使用了不同的概率分布指标,例如熵和KL散度,来量化模型信念的不确定性和变化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然LLM在多项选择题中经常给出正确答案,但其Revealed Belief显示,它们在概率分配上存在不一致性,表现出系统性偏差,并且在面对新证据时无法适当地更新信念。这些发现表明,传统的评估方法可能高估了LLM的推理能力,需要更深入的研究来评估其真实能力。

🎯 应用场景

该研究成果可应用于改进大语言模型的评估方法,使其更全面、更准确地反映模型在不确定性推理方面的能力。此外,该方法还可以用于诊断模型在处理特定类型问题时存在的偏差和不足,从而指导模型的改进和优化。该研究对于开发更可靠、更可信赖的人工智能系统具有重要意义。

📄 摘要(原文)

Multiple Choice Questions (MCQ) have become a commonly used approach to assess the capabilities of Large Language Models (LLMs), due to their ease of manipulation and evaluation. The experimental appraisals of the LLMs' Stated Answer (their answer to MCQ) have pointed to their apparent ability to perform probabilistic reasoning or to grasp uncertainty. In this work, we investigate whether these aptitudes are measurable outside tailored prompting and MCQ by reformulating these issues as direct text-completion - the fundamental computational unit of LLMs. We introduce Revealed Belief, an evaluation framework that evaluates LLMs on tasks requiring reasoning under uncertainty, which complements MCQ scoring by analyzing text-completion probability distributions. Our findings suggest that while LLMs frequently state the correct answer, their Revealed Belief shows that they often allocate probability mass inconsistently, exhibit systematic biases, and often fail to update their beliefs appropriately when presented with new evidence, leading to strong potential impacts on downstream tasks. These results suggest that common evaluation methods may only provide a partial picture and that more research is needed to assess the extent and nature of their capabilities.