Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

📄 arXiv: 2502.08666v2 📥 PDF

作者: Miranda Muqing Miao, Michael Kearns

分类: cs.CL, cs.AI

发布日期: 2025-02-11 (更新: 2025-05-15)

备注: Code available at https://github.com/mmiao2/Hallucination.git


💡 一句话要点

通过控制单因素率和选择性加权,实证研究LLM幻觉现象的成因与缓解策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉 单因素率 模型校准 选择性加权

📋 核心要点

  1. 大型语言模型存在幻觉问题,现有研究表明其与单因素率和模型错误校准有关,但缺乏实证研究。
  2. 通过控制训练数据的单因素率和引入选择性加权,系统性地研究了这些因素对幻觉的影响,并提出了经验幻觉边界。
  3. 实验表明,选择性加权能够在保持准确率的同时显著降低幻觉,挑战了通用的数据去重策略。

📝 摘要(中文)

大型语言模型(LLM)中的幻觉事实最近被证明服从一个统计下界,该下界由单因素率(与经典的Good-Turing缺失质量估计器相关)减去模型错误校准决定(Kalai & Vempala, 2024)。我们对经典n-gram模型和微调的encoder-decoder Transformer进行了首次实证研究,以探索这种三向关系。通过从具有不同形状参数的Pareto分布生成训练数据,我们系统地控制了单因素率,并建立了其与幻觉的正相关关系。为了弥合理论与实践,我们通过用经验bin-wise KL散度替换总体错误校准项(第2.1节),推导出了幻觉边界的经验模拟,并证实了其在实践中的可行性。然后,我们引入了选择性加权——一种简单而有效的技术,它策略性地重复少至5%的训练样本——以故意将错误校准注入模型。这种干预最多可减少40%的幻觉,挑战了通用的去重策略。我们的实验揭示了一个关键的权衡:选择性加权保持了注入前的准确度水平,同时大大减少了幻觉,而标准训练逐渐提高了准确度,但未能解决持续的高幻觉问题,表明优化目标存在固有的张力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中普遍存在的幻觉问题,即模型生成不真实或与事实不符的内容。现有方法,如数据去重,试图通过减少训练数据中的冗余来缓解幻觉,但效果有限,并且可能损害模型的准确性。论文关注单因素率和模型错误校准这两个关键因素,并探究它们与幻觉之间的关系。

核心思路:论文的核心思路是通过系统地控制训练数据的单因素率(即只出现一次的事实的比例)和引入选择性加权来研究它们对幻觉的影响。单因素率越高,模型越容易产生幻觉。选择性加权通过策略性地重复某些训练样本来引入模型错误校准,从而影响模型的置信度,进而影响幻觉的产生。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用Pareto分布生成具有不同单因素率的训练数据;2) 使用n-gram模型和Transformer模型进行训练;3) 引入选择性加权,策略性地重复部分训练样本;4) 评估模型的幻觉率和准确率;5) 推导并验证经验幻觉边界。

关键创新:论文的关键创新在于:1) 首次对单因素率、模型错误校准和幻觉之间的三向关系进行了实证研究;2) 提出了选择性加权这一简单而有效的技术,用于控制模型错误校准并降低幻觉;3) 推导并验证了经验幻觉边界,为理解和预测幻觉提供了新的视角。

关键设计:在实验中,论文使用了Pareto分布来控制训练数据的单因素率,通过调整Pareto分布的形状参数来改变单因素率的大小。选择性加权的具体实现方式是随机选择5%的训练样本进行重复。模型的评估指标包括幻觉率和准确率。经验幻觉边界的计算基于bin-wise KL散度,用于衡量模型预测概率与真实概率之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过选择性加权,最多可以减少40%的幻觉,同时保持与注入前相当的准确率。这表明,通过策略性地调整训练数据,可以在不牺牲准确性的前提下显著降低幻觉。此外,实验还验证了经验幻觉边界的有效性,为预测和控制幻觉提供了理论依据。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可靠性和可信度,尤其是在需要高度准确性的场景,如医疗诊断、金融分析和法律咨询等领域。通过控制单因素率和选择性加权,可以有效降低模型产生幻觉的风险,提高模型的实用价值。

📄 摘要(原文)

Hallucinated facts in large language models (LLMs) have recently been shown to obey a statistical lower bound determined by the monofact rate (related to the classical Good-Turing missing mass estimator) minus model miscalibration (Kalai & Vempala, 2024). We present the first empirical investigation of this three-way relationship in classical n-gram models and fine-tuned encoder-decoder Transformers. By generating training data from Pareto distributions with varying shape parameters, we systematically control the monofact rates and establish its positive relationship with hallucination. To bridge theory and practice, we derive an empirical analog of the hallucination bound by replacing the population miscalibration term (Section 2.1) with an empirical bin-wise KL divergence and confirm its practical viability. We then introduce selective upweighting -- a simple yet effective technique that strategically repeats as little as 5% of training examples -- to deliberately inject miscalibration into the model. This intervention reduces hallucination by up to 40%, challenging universal deduplication policies. Our experiments reveal a critical trade-off: selective upweighting maintains pre-injection levels of accuracy while substantially reducing hallucination, whereas standard training gradually improves accuracy but fails to address persistently high hallucination, indicating an inherent tension in optimization objectives.