Enough Coin Flips Can Make LLMs Act Bayesian

📄 arXiv: 2503.04722v2 📥 PDF

作者: Ritwik Gupta, Rodolfo Corona, Jiaxin Ge, Eric Wang, Dan Klein, Trevor Darrell, David M. Chan

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-03-06 (更新: 2025-06-29)

备注: ACL 2025 Main


💡 一句话要点

通过足够多的抛硬币示例,可使大语言模型表现出贝叶斯行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文学习 贝叶斯推理 先验信念 后验更新

📋 核心要点

  1. 现有研究对LLM的上下文学习能力(ICL)是否遵循贝叶斯框架进行结构化推理存在疑问,可能只是模式匹配。
  2. 该论文通过设计受控的偏置硬币抛掷实验,探究LLM在ICL中是否以及如何进行贝叶斯推理。
  3. 实验表明,通过足够的上下文示例,LLM能够以贝叶斯方式更新其先验,从而进行更合理的预测。

📝 摘要(中文)

大型语言模型(LLMs)展现出一种涌现能力,即通过输入提示中的少量示例进行泛化,这种能力被称为上下文学习(ICL)。我们研究了LLMs是否利用ICL以符合贝叶斯框架的方式进行结构化推理,还是依赖于模式匹配。在一个受控的偏置硬币抛掷实验中,我们发现:(1)LLMs通常具有偏置先验,导致在零样本设置中出现初始差异;(2)上下文证据胜过明确的偏置指令;(3)LLMs大致遵循贝叶斯后验更新,偏差主要源于先验的错误校准,而非更新过程的缺陷;(4)注意力幅度对贝叶斯推理的影响可以忽略不计。通过ICL提供足够多的偏置硬币抛掷演示,LLMs会以贝叶斯方式更新其先验。

🔬 方法详解

问题定义:现有的大语言模型展现出强大的上下文学习能力,但其推理机制尚不明确。一个关键问题是,LLM是否真正理解并应用贝叶斯推理,还是仅仅依赖于模式匹配来生成答案。现有的方法难以区分这两种机制,因为真实世界的数据集通常包含复杂的依赖关系和噪声。

核心思路:该论文的核心思路是通过设计一个高度受控的实验环境,即偏置硬币抛掷,来隔离和分析LLM的推理过程。通过控制硬币的偏置和提供的上下文示例,研究人员可以精确地观察LLM如何更新其先验信念,并判断其是否符合贝叶斯推理的原则。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 先验评估:在零样本设置下,评估LLM对硬币偏置的初始信念(先验)。2) 上下文学习:通过ICL向LLM展示一系列硬币抛掷的结果,这些结果具有特定的偏置。3) 后验评估:在提供上下文示例后,评估LLM对硬币偏置的更新信念(后验)。4) 贝叶斯一致性检验:将LLM的后验信念与根据贝叶斯公式计算出的理论后验进行比较,以评估其推理的一致性。5) 注意力分析:分析注意力机制对贝叶斯推理的影响。

关键创新:该论文的关键创新在于其受控实验的设计,它允许研究人员精确地操纵输入数据,并观察LLM的推理过程。此外,该研究还深入分析了LLM的先验信念、后验更新以及注意力机制在贝叶斯推理中的作用,从而为理解LLM的推理机制提供了新的视角。与现有方法相比,该研究更注重对LLM推理过程的细粒度分析,而非仅仅关注最终的预测结果。

关键设计:实验中,研究人员使用了不同的硬币偏置(例如,硬币A的正面概率为0.8,硬币B的正面概率为0.2)。他们还控制了上下文示例的数量和顺序,以观察LLM如何根据不同的证据更新其信念。此外,他们还使用了不同的LLM模型,以评估结果的泛化性。在评估LLM的后验信念时,研究人员使用了多种指标,包括预测的准确性和与贝叶斯后验的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在零样本设置下通常具有偏置先验,但通过足够的上下文示例,它们可以以贝叶斯方式更新其先验信念。研究发现,上下文证据比明确的偏置指令更具影响力。此外,注意力幅度对贝叶斯推理的影响可以忽略不计。这些发现为理解LLM的推理机制提供了重要的见解。

🎯 应用场景

该研究成果有助于更好地理解和控制大型语言模型的推理过程,从而提高其在各种任务中的可靠性和可信度。潜在应用包括:风险评估、决策支持、科学研究等领域,在这些领域中,准确的概率推理至关重要。未来的研究可以探索如何利用这些发现来改进LLM的训练方法,使其更有效地进行贝叶斯推理。

📄 摘要(原文)

Large language models (LLMs) exhibit the ability to generalize given few-shot examples in their input prompt, an emergent capability known as in-context learning (ICL). We investigate whether LLMs use ICL to perform structured reasoning in ways that are consistent with a Bayesian framework or rely on pattern matching. Using a controlled setting of biased coin flips, we find that: (1) LLMs often possess biased priors, causing initial divergence in zero-shot settings, (2) in-context evidence outweighs explicit bias instructions, (3) LLMs broadly follow Bayesian posterior updates, with deviations primarily due to miscalibrated priors rather than flawed updates, and (4) attention magnitude has negligible effect on Bayesian inference. With sufficient demonstrations of biased coin flips via ICL, LLMs update their priors in a Bayesian manner.