Superficial Beliefs in LLM Decision-Making

📄 arXiv: 2606.11016v1 📥 PDF

作者: Gabriel Freedman, Francesca Toni

分类: cs.AI

发布日期: 2026-06-09

备注: Under review


💡 一句话要点

提出对LLM决策中的表面信念的分析以揭示决策结构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 决策结构 行为模型 表面信念 自然语言处理

📋 核心要点

  1. 核心问题:现有研究未能明确区分LLM决策是否基于系统的决策结构,还是仅仅模仿表面理由。
  2. 方法要点:通过合成的二元决策设置,比较模型自我报告的关键属性与行为模型推断的驱动因素,揭示其决策机制。
  3. 实验或效果:实验结果显示,模型行为与可见属性有系统关系,但自我报告与行为推断之间存在不完全一致性。

📝 摘要(中文)

本文探讨大型语言模型(LLMs)在选择两种选项时,是否仅仅模仿理由,还是其选择反映了系统的决策结构。通过合成的二元决策设置,比较模型所认为最重要的属性与行为模型下最佳解释其选择的属性。结果表明,模型行为与可见属性系统相关,而非随机。然而,直接自我报告和独立评分的评估仅部分恢复了行为推断的驱动因素。这一现象在不同的提示顺序和采样扰动、替代行为模型、目标遮挡分析及结构变化的决策设置中均持续存在。我们将其解释为LLM决策中的“表面信念”证据:模型的行为似乎受到属性的概率局部优先级的引导,但对驱动决策的属性的言语访问有限。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在决策过程中是否仅仅模仿理由的问题。现有方法未能有效揭示模型决策背后的系统结构,导致对模型行为的理解存在局限。

核心思路:论文通过合成的二元决策设置,比较模型自我报告的关键属性与行为模型推断的驱动因素,旨在揭示LLM决策的内在机制。这样的设计能够更好地理解模型的决策过程及其背后的逻辑。

技术框架:整体架构包括数据生成、模型选择、行为模型拟合和结果分析四个主要模块。首先生成合成数据,然后让模型进行选择,接着拟合行为模型以解释选择,最后分析自我报告与行为推断的关系。

关键创新:最重要的技术创新在于提出了“表面信念”的概念,表明模型的行为虽然有结构性,但对驱动决策的属性的言语表达却是有限的。这一发现与现有方法的本质区别在于强调了模型行为的系统性与表面理由之间的差异。

关键设计:在实验中,采用了多种行为模型进行拟合,并进行了目标遮挡分析。关键参数设置包括属性的权重调整和模型选择标准,确保了实验的严谨性和结果的可靠性。实验还考虑了不同的提示顺序和采样扰动,以验证结果的稳健性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,行为模型能够有效预测模型的持出选择,表明模型行为与可见属性之间存在系统关系。尽管自我报告与行为推断之间存在部分不一致性,但整体上,模型的行为结构足以支持决策预测。这一发现为理解LLM的决策过程提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、决策支持系统和人机交互等。通过深入理解LLM的决策机制,可以优化模型在实际应用中的表现,提高其在复杂决策场景中的可靠性和透明度。未来,该研究可能推动更智能的决策系统的发展,提升人机协作的效率。

📄 摘要(原文)

We ask whether large language models (LLMs) merely imitate rationales when choosing between two options, or whether their choices reflect a systematic underlying decision structure. Using synthetic binary decision settings in which models choose between profiles defined by graded attributes, we compare the attribute a model says mattered most with the attribute that best explains its choice under a behavioural model fit to prior decisions. The behavioural model predicts held-out choices well, showing that model behaviour is systematically related to the visible attributes rather than being random. However, direct self-reports and a separate score-based judge recover the behaviourally inferred driver only partially. The resulting picture is neither one of arbitrary behaviour nor one of fully articulated belief - outputs are structured enough to support prediction, but explicit reasons track the recovered driver only imperfectly. This qualitative pattern persists across prompt-order and sampling perturbations, alternative behavioural models, targeted occlusion analyses, and structurally varied decision settings. We interpret this as evidence for ``superficial belief'' in LLM decision-making: models behave as if guided by probabilistic local priorities over attributes, while having only limited verbal access to the attributes that drive their decisions.