Causal Evidence that Language Models use Confidence to Drive Behavior

📄 arXiv: 2603.22161v1 📥 PDF

作者: Dharshan Kumaran, Nathaniel Daw, Simon Osindero, Petar Velickovic, Viorica Patraucean

分类: cs.LG

发布日期: 2026-03-23


💡 一句话要点

揭示大语言模型利用置信度驱动行为决策,为自主智能体发展奠定基础

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 置信度估计 元认知 自主智能体 弃权策略

📋 核心要点

  1. 现有方法难以确定LLM是否主动利用置信度信号来调节自身行为,阻碍了对LLM决策机制的深入理解。
  2. 该研究通过四阶段的弃权范式,揭示LLM利用内部置信度估计和阈值策略来决定是否回答问题。
  3. 实验表明,置信度是行为的主要预测指标,且可以通过操纵内部置信度信号来改变LLM的弃权率。

📝 摘要(中文)

元认知——评估自身认知表现的能力——已在多个物种中被证实,其中内部置信度估计是适应性行为的关键信号。虽然可以从大型语言模型(LLM)的输出中提取置信度,但模型是否主动使用这些信号来调节行为仍然是一个根本问题。我们通过一个四阶段的弃权范式来研究这个问题。第一阶段建立了在没有弃权选项的情况下的内部置信度估计。第二阶段揭示了LLM在决定回答或弃权时,会将隐式阈值应用于这些估计。置信度成为行为的主要预测指标,其效应量比知识检索可访问性(RAG分数)或表面语义特征大一个数量级。第三阶段通过激活引导提供了因果证据:操纵内部置信度信号会相应地改变弃权率。最后,第四阶段表明,模型可以根据指示的阈值系统地改变弃权策略。我们的研究结果表明,弃权源于内部置信度表示和基于阈值的策略的联合运作,这与生物系统中发现的两阶段元认知控制相呼应。这种能力至关重要,因为LLM正在转变为必须认识到自身不确定性以决定何时行动或寻求帮助的自主智能体。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)是否以及如何利用内部置信度估计来驱动其行为决策的问题。现有的研究主要集中在从LLM的输出中提取置信度,但缺乏对LLM是否主动使用这些置信度信号来调节行为的深入理解。这阻碍了我们对LLM决策机制的理解,并限制了LLM在需要自主判断和决策的应用中的可靠性。

核心思路:论文的核心思路是通过设计一个四阶段的弃权范式,来系统地研究LLM的置信度估计、阈值策略以及置信度对行为的因果影响。该范式允许研究人员在不同条件下观察LLM的回答和弃权行为,并分析这些行为与内部置信度估计之间的关系。通过激活引导,论文还能够直接操纵LLM的内部置信度信号,从而验证置信度对行为的因果影响。

技术框架:该研究采用了一个四阶段的实验框架: 1. 置信度估计阶段:在没有弃权选项的情况下,建立LLM的内部置信度估计。 2. 阈值策略揭示阶段:揭示LLM在决定回答或弃权时,如何应用隐式阈值。 3. 因果验证阶段:通过激活引导,操纵内部置信度信号,验证其对弃权率的因果影响。 4. 策略调整阶段:展示LLM如何根据指示的阈值系统地改变弃权策略。

关键创新:该研究最重要的技术创新点在于它提供了一个系统的方法来研究LLM的元认知能力,特别是其利用置信度来驱动行为决策的能力。与以往的研究不同,该研究不仅关注从LLM的输出中提取置信度,而且还关注LLM如何主动使用这些置信度信号来调节行为。通过激活引导,该研究还提供了因果证据,证明置信度对LLM的行为具有直接的影响。

关键设计:在激活引导阶段,研究人员使用了一种基于梯度的优化方法来找到能够增加或减少LLM内部置信度信号的激活向量。具体的参数设置和损失函数细节未知,但其核心思想是找到能够有效操纵LLM内部状态的激活向量,从而验证置信度对行为的因果影响。此外,研究还使用了RAG分数和表面语义特征作为基线,以评估置信度在预测LLM行为中的相对重要性。

📊 实验亮点

实验结果表明,置信度是LLM行为的主要预测指标,其效应量比知识检索可访问性(RAG分数)或表面语义特征大一个数量级。通过激活引导操纵内部置信度信号可以显著改变LLM的弃权率,从而提供了置信度对行为的因果证据。此外,LLM可以根据指示的阈值系统地改变弃权策略。

🎯 应用场景

该研究成果对LLM在自主智能体领域的应用具有重要意义。通过理解LLM如何利用置信度来驱动行为决策,我们可以开发更可靠、更安全的自主智能体,使其能够在不确定性环境中做出更明智的决策,并在必要时寻求帮助。这对于医疗诊断、自动驾驶等关键领域的应用至关重要。

📄 摘要(原文)

Metacognition -- the ability to assess one's own cognitive performance -- is documented across species, with internal confidence estimates serving as a key signal for adaptive behavior. While confidence can be extracted from Large Language Model (LLM) outputs, whether models actively use these signals to regulate behavior remains a fundamental question. We investigate this through a four-phase abstention paradigm.Phase 1 established internal confidence estimates in the absence of an abstention option. Phase 2 revealed that LLMs apply implicit thresholds to these estimates when deciding to answer or abstain. Confidence emerged as the dominant predictor of behavior, with effect sizes an order of magnitude larger than knowledge retrieval accessibility (RAG scores) or surface-level semantic features. Phase 3 provided causal evidence through activation steering: manipulating internal confidence signals correspondingly shifted abstention rates. Finally, Phase 4 demonstrated that models can systematically vary abstention policies based on instructed thresholds.Our findings indicate that abstention arises from the joint operation of internal confidence representations and threshold-based policies, mirroring the two-stage metacognitive control found in biological systems. This capacity is essential as LLMs transition into autonomous agents that must recognize their own uncertainty to decide when to act or seek help.