Mind the Unseen Mass: Unmasking LLM Hallucinations via Soft-Hybrid Alphabet Estimation

📄 arXiv: 2604.19162v1 📥 PDF

作者: Hongxing Pan, Yingying Guo, Wenqing Kuang, Jiashi Lu

分类: cs.CL, stat.AP

发布日期: 2026-04-21

备注: 7 pages, 1 figure, 3 tables


💡 一句话要点

提出SHADE,通过软混合字母表估计解决LLM在小样本下的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 不确定性量化 语义字母表估计 黑盒模型 小样本学习

📋 核心要点

  1. 现有基于频率的估计器在小样本下低估稀有语义,图谱量无法准确估计语义占用率,导致LLM不确定性量化困难。
  2. 提出SHADE,结合Good-Turing覆盖率和蕴含加权图的拉普拉斯热核迹,自适应融合规则,强调缺失语义模式。
  3. 实验表明,SHADE在小样本情况下显著提升了语义字母表大小估计和QA不正确性检测性能,尤其是在采样预算有限时。

📝 摘要(中文)

本文研究了在黑盒访问下,大语言模型(LLM)的不确定性量化问题,即每次查询只能采样少量响应。在这种情况下,估计有效的语义字母表大小(即采样响应中表达的不同含义的数量)为下游风险提供了一个有用的代理。然而,基于频率的估计器在样本量较小时容易低估稀有的语义模式,而单独的图谱量并不能准确估计语义占用率。为了解决这个问题,我们提出了SHADE(软混合字母表动态估计器),这是一个简单且可解释的估计器,它将广义Good-Turing覆盖率与从采样响应上的蕴含加权图构建的归一化拉普拉斯算子的热核迹结合起来。估计的覆盖率自适应地确定融合规则:在高覆盖率下,SHADE使用两种信号的凸组合,而在低覆盖率下,它应用LogSumExp融合来强调缺失或弱观察到的语义模式。然后引入有限样本校正来稳定结果基数估计,然后将其转换为覆盖率调整的语义熵分数。在针对大样本参考的合并语义字母表大小估计和QA不正确性检测的实验表明,SHADE在最受样本限制的情况下实现了最强的改进,而随着样本数量的增加,性能差距缩小。这些结果表明,当黑盒不确定性量化必须在严格的采样预算下运行时,混合语义占用率估计特别有益。

🔬 方法详解

问题定义:论文旨在解决黑盒访问下,大语言模型(LLM)在小样本量下进行不确定性量化时,现有方法无法准确估计语义字母表大小的问题。现有方法,如基于频率的估计器,容易低估稀有语义模式,而单独的图谱量无法准确估计语义占用率,导致下游任务风险评估不准确。

核心思路:论文的核心思路是将广义Good-Turing覆盖率与从采样响应构建的蕴含加权图的归一化拉普拉斯算子的热核迹相结合,提出一种混合估计器SHADE。通过自适应地融合这两种信号,SHADE能够更准确地估计语义字母表的大小,尤其是在样本量较小的情况下。这样设计的目的是为了弥补现有方法的不足,充分利用不同信息的优势。

技术框架:SHADE的整体框架包括以下几个主要步骤:1) 从LLM采样少量响应;2) 构建采样响应上的蕴含加权图;3) 计算广义Good-Turing覆盖率;4) 计算归一化拉普拉斯算子的热核迹;5) 根据估计的覆盖率自适应地确定融合规则(凸组合或LogSumExp融合);6) 应用有限样本校正来稳定基数估计;7) 将基数估计转换为覆盖率调整的语义熵分数。

关键创新:SHADE的关键创新在于其混合估计方法和自适应融合规则。传统的估计方法要么依赖于频率信息,要么依赖于图谱信息,而SHADE将两者结合起来,充分利用了各自的优势。此外,SHADE的自适应融合规则能够根据样本覆盖率动态地调整两种信号的权重,从而在不同情况下都能获得更准确的估计结果。与现有方法相比,SHADE能够更好地处理小样本量下的不确定性量化问题。

关键设计:SHADE的关键设计包括:1) 蕴含加权图的构建方式,如何定义节点之间的边权重以反映语义相似度;2) 广义Good-Turing覆盖率的计算方法;3) 归一化拉普拉斯算子的热核迹的计算方法;4) 自适应融合规则的具体形式(凸组合和LogSumExp融合的权重如何确定);5) 有限样本校正的具体公式,如何稳定基数估计。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,SHADE在小样本情况下显著提升了语义字母表大小估计和QA不正确性检测的性能。在样本量有限的情况下,SHADE的性能优于其他基线方法,并且随着样本数量的增加,性能差距逐渐缩小。这表明SHADE在采样预算有限的情况下特别有效,能够更准确地量化LLM的不确定性。

🎯 应用场景

该研究成果可应用于各种需要对大语言模型进行不确定性量化的场景,例如问答系统、文本生成和对话系统。通过更准确地估计LLM的语义字母表大小,可以更好地评估模型的可靠性和风险,从而提高下游任务的性能和安全性。未来,该方法可以扩展到其他类型的模型和任务,并与其他不确定性量化技术相结合。

📄 摘要(原文)

This paper studies uncertainty quantification for large language models (LLMs) under black-box access, where only a small number of responses can be sampled for each query. In this setting, estimating the effective semantic alphabet size--that is, the number of distinct meanings expressed in the sampled responses--provides a useful proxy for downstream risk. However, frequency-based estimators tend to undercount rare semantic modes when the sample size is small, while graph-spectral quantities alone are not designed to estimate semantic occupancy accurately. To address this issue, we propose SHADE (Soft-Hybrid Alphabet Dynamic Estimator), a simple and interpretable estimator that combines Generalized Good-Turing coverage with a heat-kernel trace of the normalized Laplacian constructed from an entailment-weighted graph over sampled responses. The estimated coverage adaptively determines the fusion rule: under high coverage, SHADE uses a convex combination of the two signals, while under low coverage it applies a LogSumExp fusion to emphasize missing or weakly observed semantic modes. A finite-sample correction is then introduced to stabilize the resulting cardinality estimate before converting it into a coverage-adjusted semantic entropy score. Experiments on pooled semantic alphabet-size estimation against large-sample references and on QA incorrectness detection show that SHADE achieves the strongest improvements in the most sample-limited regime, while the performance gap narrows as the number of samples increases. These results suggest that hybrid semantic occupancy estimation is particularly beneficial when black-box uncertainty quantification must operate under tight sampling budgets.