Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning

📄 arXiv: 2512.02914v1 📥 PDF

作者: Zhonghao He, Tianyi Qiu, Hirokazu Shirado, Maarten Sap

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-12-02

备注: NeurIPS 2025


💡 一句话要点

提出Martingale Score,用于评估LLM推理中贝叶斯理性程度的无监督指标

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 信念固化 贝叶斯理性 无监督评估 迭代推理

📋 核心要点

  1. 现有LLM推理技术可能导致信念固化和确认偏差,而非增强寻求真理的行为,这降低了LLM的可靠性。
  2. 论文提出Martingale Score,利用贝叶斯统计中的鞅性质,评估LLM推理过程中信念更新的理性程度。
  3. 实验表明,在开放领域中,LLM普遍存在信念固化现象,且Martingale Score能有效预测ground-truth准确性。

📝 摘要(中文)

大型语言模型(LLM)的推理技术取得了显著进展,人们对其提供准确、真实和可靠信息的能力抱有很高的期望。然而,新出现的证据表明,迭代推理可能会助长信念固化和确认偏差,而不是增强寻求真理的行为。本研究利用贝叶斯统计中的鞅性质,提出了一个系统的评估框架,用于评估LLM推理中的信念固化。鞅性质意味着,在理性信念更新下,未来信念的期望值应保持等于当前信念,即信念更新无法从当前信念预测。我们提出了基于回归的无监督Martingale Score来衡量对这一性质的违反程度,这表明偏离了基于新证据进行更新的贝叶斯能力。在包括事件预测、价值判断问题和学术论文评审等开放领域中,我们发现这种违规行为在各种模型和设置中普遍存在,当前信念可以积极预测未来的信念更新,我们称之为信念固化。我们确定了更容易出现信念固化的模型、推理技术和领域。最后,我们通过展示Martingale Score可以预测具有真实标签的问题领域的ground-truth准确性来验证它。这表明,虽然Martingale Score被设计为一种无监督指标,即使在无法访问ground truth的领域也能运行,但它也是推理过程寻求真理能力的一个有用的代理。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在迭代推理过程中出现的信念固化问题。现有的LLM推理方法,虽然在某些任务上表现出色,但容易受到确认偏差的影响,导致模型过度依赖初始信念,无法有效利用新证据进行更新,从而降低了模型的可靠性和客观性。

核心思路:论文的核心思路是利用贝叶斯统计中的鞅性质来评估LLM推理的理性程度。鞅性质表明,在理性信念更新下,未来信念的期望值应等于当前信念。如果LLM的信念更新违反了这一性质,则表明模型存在信念固化现象,即当前信念可以预测未来的信念更新。

技术框架:论文提出的评估框架主要包含以下几个步骤:1) 收集LLM在迭代推理过程中的信念序列;2) 使用回归模型(例如线性回归)来预测未来的信念更新;3) 计算Martingale Score,该分数衡量了回归模型的预测能力,即当前信念对未来信念更新的解释程度。Martingale Score越高,表明信念固化现象越严重。

关键创新:论文的关键创新在于提出了Martingale Score这一无监督指标,用于评估LLM推理中的贝叶斯理性程度。与传统的评估方法不同,Martingale Score不需要ground truth标签,可以在开放领域中直接应用。此外,Martingale Score提供了一种量化信念固化程度的方法,可以帮助研究人员更好地理解LLM推理的内在机制。

关键设计:Martingale Score的具体计算方式是基于回归模型的R平方值。论文使用线性回归模型来预测未来的信念更新,并将R平方值作为Martingale Score。R平方值越高,表明当前信念对未来信念更新的解释程度越高,信念固化现象越严重。论文还探讨了不同的回归模型和信念表示方法对Martingale Score的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Martingale Score能够有效识别LLM推理中的信念固化现象,并且与ground-truth准确性具有相关性。在多个开放领域,包括事件预测、价值判断问题和学术论文评审中,LLM普遍存在信念固化现象。此外,研究还发现,不同的模型和推理技术对信念固化的影响不同。

🎯 应用场景

该研究成果可应用于评估和改进LLM的推理能力,尤其是在需要客观、公正判断的领域,如科学研究、政策制定和新闻报道。通过降低LLM的信念固化程度,可以提高其决策的可靠性和准确性,避免偏见和误导。

📄 摘要(原文)

Recent advances in reasoning techniques have substantially improved the performance of large language models (LLMs), raising expectations for their ability to provide accurate, truthful, and reliable information. However, emerging evidence suggests that iterative reasoning may foster belief entrenchment and confirmation bias, rather than enhancing truth-seeking behavior. In this study, we propose a systematic evaluation framework for belief entrenchment in LLM reasoning by leveraging the Martingale property from Bayesian statistics. This property implies that, under rational belief updating, the expected value of future beliefs should remain equal to the current belief, i.e., belief updates are unpredictable from the current belief. We propose the unsupervised, regression-based Martingale Score to measure violations of this property, which signal deviation from the Bayesian ability of updating on new evidence. In open-ended problem domains including event forecasting, value-laden questions, and academic paper review, we find such violations to be widespread across models and setups, where the current belief positively predicts future belief updates, a phenomenon which we term belief entrenchment. We identify the models, reasoning techniques, and domains more prone to belief entrenchment. Finally, we validate the Martingale Score by showing that it predicts ground-truth accuracy on problem domains where ground truth labels are available. This indicates that, while designed as an unsupervised metric that operates even in domains without access to ground truth, the Martingale Score is a useful proxy of the truth-seeking ability of a reasoning process.