LLMs as Implicit Imputers: Uncertainty Should Scale with Missing Information
作者: Stef van Buuren
分类: stat.ML, cs.CL, cs.LG, stat.ME
发布日期: 2026-05-13
备注: 9 pages, 3 figures, 2 tables, NeurIPS 2026 position paper
💡 一句话要点
将LLM视为隐式插补器,提出不确定性应随缺失信息量增加的评估准则。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 不确定性评估 多重插补 缺失信息 SQuAD 响应熵 置信度
📋 核心要点
- 现有LLM在不完整上下文中的应用面临挑战,缺乏有效的不确定性评估方法。
- 将LLM视为隐式插补器,提出不确定性应随缺失信息量增加的评估准则。
- 实验表明,熵比置信度更能反映缺失信息带来的不确定性,且能更好解释准确率。
📝 摘要(中文)
大型语言模型(LLM)越来越多地部署在上下文信息不完整或退化的环境中。本文提出,在不完整上下文中生成答案的LLM可以被视为一个隐式插补器,并根据多重插补(MI)文献中的一个标准进行评估:不确定性应随缺失信息量的增加而增加。我们在SQuAD上评估了这一标准,使用了一个受控框架,其中上下文可用性在五个级别上变化。我们评估了两种可以从重复抽样中估计的答案级别不确定性度量:基于抽样的置信度(经验模频率)和响应熵。置信度未能反映缺失信息的增加:即使准确率崩溃,它仍然很高。相比之下,熵随着上下文的移除而增加,这与MI类比一致,并且在所有证据级别上,熵比置信度更能解释准确率的方差(二次$R^2$差距高达0.057)。我们进一步引入了一个黑盒诊断$ρ_R(α)$,它估计了上下文级别$α$所解决的基线不确定性的比例,只需要在有和没有上下文的情况下重复抽样。这些结果表明,在不完整的上下文中,熵是一种比置信度更灵敏的黑盒不确定性度量。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在上下文信息不完整的情况下生成答案时,如何有效评估其不确定性的问题。现有方法,如直接使用LLM输出的置信度,往往无法准确反映缺失信息带来的不确定性,导致模型在信息不足时仍然给出高置信度的错误答案。这限制了LLM在实际应用中的可靠性。
核心思路:论文的核心思路是将LLM在不完整上下文中的生成过程类比为多重插补(MI)。在MI中,缺失信息越多,插补结果的不确定性应该越高。因此,论文提出评估LLM的不确定性度量是否符合这一原则,即不确定性是否随着缺失信息的增加而增加。如果符合,则认为该不确定性度量是可靠的。
技术框架:论文的技术框架主要包括以下几个步骤:1)选择SQuAD数据集,并设计一个受控的实验环境,通过逐步移除上下文信息来模拟不同程度的缺失信息。2)使用LLM在不同上下文完整度下生成答案,并计算两种不确定性度量:基于抽样的置信度(经验模频率)和响应熵。3)分析这两种不确定性度量与上下文完整度和答案准确率之间的关系。4)引入黑盒诊断$ρ_R(α)$,用于估计上下文级别$α$所解决的基线不确定性的比例。
关键创新:论文最重要的技术创新点在于将LLM的生成过程与多重插补联系起来,并提出了一个基于缺失信息量的不确定性评估准则。这种类比为评估LLM在不确定性条件下的行为提供了一个新的视角。此外,论文还提出了黑盒诊断$ρ_R(α)$,可以方便地评估不同上下文级别对不确定性的影响。
关键设计:论文的关键设计包括:1)使用SQuAD数据集,因为它是一个标准的问答数据集,方便进行实验和比较。2)设计了五个不同的上下文完整度级别,通过逐步移除上下文信息来模拟不同程度的缺失信息。3)选择了两种常用的不确定性度量:基于抽样的置信度和响应熵,并分析它们与上下文完整度和答案准确率之间的关系。4)使用重复抽样的方法来估计不确定性度量,这可以更好地反映LLM的生成过程中的随机性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于抽样的置信度未能反映缺失信息的增加,而响应熵则随着上下文的移除而增加,与多重插补的类比一致。在所有证据级别上,熵比置信度更能解释准确率的方差(二次$R^2$差距高达0.057)。黑盒诊断$ρ_R(α)$也验证了熵在反映上下文信息对不确定性的影响方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要LLM在信息不完整情况下进行推理和决策的场景,例如:医疗诊断、金融风险评估、自动驾驶等。通过更准确地评估LLM的不确定性,可以提高其在这些场景中的可靠性和安全性,并为人类提供更可靠的决策支持。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed in settings where the available context is incomplete or degraded. We argue that an LLM generating answers under incomplete context can be viewed as an implicit imputer, and evaluated against a criterion from the multiple imputation (MI) literature: uncertainty should scale with the amount of missing information. We assess this criterion on SQuAD, using a controlled framework in which context availability is varied across five levels. We evaluate two answer-level uncertainty measures that can be estimated from repeated sampling: sampling-based confidence (empirical mode frequency) and response entropy. Confidence fails to reflect increasing missingness: it remains high even as accuracy collapses. Entropy, by contrast, increases with context removal, consistent with the MI analogy, and explains substantially more variance in accuracy than confidence across all evidence levels (quadratic $R^2$ gap up to 0.057). We further introduce a black-box diagnostic $ρ_R(α)$ that estimates the proportion of baseline uncertainty resolved by context level $α$, requiring only repeated sampling with and without context. These results suggest that entropy is a more responsive black-box uncertainty measure than confidence under incomplete context.