Probabilistic Guarantees for Reducing Contextual Hallucinations in LLMs

📄 arXiv: 2601.00641v1 📥 PDF

作者: Nils Rautenberg, Sven Schippkus

分类: cs.CL

发布日期: 2026-01-02


💡 一句话要点

提出一种概率保证框架,用于降低LLM在确定性任务中的上下文幻觉

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 上下文幻觉 概率保证 确定性任务 LLM裁判

📋 核心要点

  1. 现有LLM在确定性任务中存在上下文幻觉问题,严重影响自动化流程的可靠性。
  2. 该论文提出一种模型无关的框架,通过重复提示和LLM裁判来降低幻觉概率,并提供概率保证。
  3. 实验表明,该方法能有效降低幻觉概率,且降低速率与重复次数和裁判数量呈指数关系。

📝 摘要(中文)

大型语言模型(LLM)经常产生上下文幻觉,即生成的内容与提示中明确声明的信息相矛盾或忽略。这种错误在确定性自动化工作流程中尤其成问题,因为输入是固定的,正确性是明确的。本文介绍了一个简单且与模型无关的框架,该框架为降低这种环境下的幻觉提供了明确的概率保证。我们形式化了特定任务的概念,该任务由固定的输入和确定性的正确性标准定义。我们证明,在独立的上下文窗口中发出相同的提示,可以指数级地降低所有模型输出都不正确的概率。为了识别重复运行中的正确答案,我们引入了一个LLM作为裁判,并证明了判断管道失败的概率以裁判的真阳性和假阳性概率决定的速率衰减。当裁判不完善时,我们通过对独立裁判调用进行多数投票来加强它,从而获得整体级别的错误率,该错误率随着投票数量的增加呈指数级下降。这为管道选择幻觉答案的概率提供了一个明确的界限。在具有合成噪声裁判的受控提取任务上的实验与这些预测完全吻合:管道失败随着重复次数的增加呈指数级下降,并且幻觉选择随着集成中裁判数量的增加呈指数级下降。总之,这些结果提供了一种轻量级、模块化和理论上可靠的方法,用于在固定输入LLM工作流程中将幻觉概率任意降低,而无需修改模型权重、解码策略或提示工程。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理具有固定输入和确定性正确性标准的任务时,容易产生上下文幻觉的问题。现有方法,如提示工程或微调,通常缺乏明确的概率保证,难以在对可靠性要求高的自动化流程中应用。

核心思路:核心思路是通过多次独立运行LLM,并利用另一个LLM作为裁判来判断结果的正确性,从而降低整体的幻觉概率。通过重复和投票机制,可以利用概率论的原理,使得最终结果出错的概率呈指数级下降。

技术框架:整体框架包含以下几个主要步骤:1) 对相同的输入,在独立的上下文窗口中多次运行LLM;2) 使用另一个LLM作为裁判,对每次运行的结果进行评估;3) 如果裁判不完美,则通过对多个独立裁判的投票来提高判断的准确性;4) 基于裁判的真阳性和假阳性概率,以及重复次数和裁判数量,计算整体管道失败的概率上界。

关键创新:该方法最重要的创新在于提供了一种理论保证,即通过增加重复次数和裁判数量,可以将幻觉概率降低到任意低的水平。与传统的提示工程或微调方法不同,该方法不需要修改模型权重或解码策略,具有更好的通用性和可解释性。

关键设计:关键设计包括:1) 如何选择合适的LLM作为裁判,并评估其真阳性和假阳性概率;2) 如何设计裁判的投票机制,以最大程度地提高判断的准确性;3) 如何根据任务的特点,选择合适的重复次数和裁判数量,以在计算成本和幻觉概率之间取得平衡。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法能够有效降低LLM的幻觉概率。具体来说,管道失败的概率随着重复次数的增加呈指数级下降,幻觉选择的概率随着集成中裁判数量的增加也呈指数级下降。实验结果与理论预测完全吻合,验证了该方法的有效性和可靠性。

🎯 应用场景

该研究成果可应用于各种需要高可靠性的自动化任务中,例如:自动文档摘要、知识图谱构建、代码生成等。通过提供概率保证,可以提高LLM在这些场景中的应用价值,并降低因幻觉带来的风险。未来,该方法可以扩展到更复杂的任务和模型,并与其他降低幻觉的技术相结合。

📄 摘要(原文)

Large language models (LLMs) frequently produce contextual hallucinations, where generated content contradicts or ignores information explicitly stated in the prompt. Such errors are particularly problematic in deterministic automation workflows, where inputs are fixed and correctness is unambiguous. We introduce a simple and model-agnostic framework that provides explicit probabilistic guarantees for reducing hallucinations in this setting. We formalize the notion of a specific task, defined by a fixed input and a deterministic correctness criterion, and show that issuing the same prompt in independent context windows yields an exponential reduction in the probability that all model outputs are incorrect. To identify a correct answer among repeated runs, we incorporate an LLM-as-a-judge and prove that the probability that the judged pipeline fails decays at a rate determined by the judge's true- and false-positive probabilities. When the judge is imperfect, we strengthen it through majority vote over independent judge calls, obtaining ensemble-level error rates that decrease exponentially in the number of votes. This yields an explicit bound on the probability that the pipeline selects a hallucinated answer. Experiments on controlled extraction tasks with synthetic noisy judges match these predictions exactly: pipeline failure decreases exponentially with the number of repetitions, and hallucination-selection decreases exponentially with the number of judges in the ensemble. Together, these results provide a lightweight, modular, and theoretically grounded method for driving hallucination probabilities arbitrarily low in fixed-input LLM workflows-without modifying model weights, decoding strategies, or prompt engineering.