Why Language Models Hallucinate

📄 arXiv: 2509.04664v1 📥 PDF

作者: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang

分类: cs.CL

发布日期: 2025-09-04


💡 一句话要点

揭示语言模型幻觉根源:训练与评估机制偏差导致模型倾向于猜测而非承认不确定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 幻觉 不确定性 训练偏差 评估指标 可信AI 自然语言处理

📋 核心要点

  1. 现有语言模型在不确定时倾向于猜测,产生幻觉,损害了用户信任,这是一个亟待解决的问题。
  2. 论文核心思想是训练和评估机制偏差导致模型倾向于猜测,而非承认不确定性,从而产生幻觉。
  3. 论文分析了幻觉的统计学原因,并提出修改现有基准评分方式的社会技术缓解方案,以提升模型可信度。

📝 摘要(中文)

大型语言模型在面对难题时,常常会像学生一样进行猜测,产生看似合理但实则错误的陈述,而非承认自身的不确定性。这种“幻觉”现象即使在最先进的系统中也依然存在,并损害了人们对模型的信任。本文认为,语言模型产生幻觉的原因在于训练和评估过程奖励了猜测行为,而非承认不确定性。文章分析了现代训练流程中导致幻觉的统计学原因,指出幻觉并非神秘现象,而是源于二元分类中的简单错误。如果错误陈述无法与事实区分,那么预训练语言模型中的幻觉将因自然的统计压力而产生。此外,由于现有评估方式对不确定性回应的惩罚,模型被优化为擅长考试的“应试者”,猜测行为反而提高了测试性能。解决这种“流行病”需要一种社会技术缓解方案:修改现有基准的评分方式,而非引入额外的幻觉评估指标,从而引导领域朝着更值得信赖的AI系统发展。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中普遍存在的“幻觉”问题,即模型在不确定情况下生成看似合理但错误的陈述。现有方法未能有效解决这一问题,因为训练和评估过程存在偏差,奖励了猜测行为,而惩罚了承认不确定性的行为。这种偏差导致模型在面对难题时,更倾向于猜测,而非坦诚知识的不足。

核心思路:论文的核心思路是,语言模型的幻觉并非神秘现象,而是源于训练数据和评估指标的偏差。如果模型无法区分正确和错误的陈述,并且在评估中猜测能够获得更高的分数,那么模型自然会倾向于生成幻觉。因此,解决幻觉问题的关键在于纠正训练和评估机制中的偏差。

技术框架:论文并没有提出一个全新的技术框架,而是对现有语言模型的训练和评估流程进行了深入分析。其分析框架主要包括以下几个方面:1) 考察训练数据中错误信息对模型的影响;2) 分析评估指标如何奖励猜测行为;3) 探讨如何修改评估指标以鼓励模型承认不确定性。

关键创新:论文的创新之处在于其对语言模型幻觉问题的根源进行了深刻的剖析,并提出了一个社会技术缓解方案。该方案强调,解决幻觉问题不能仅仅依靠技术手段,还需要修改现有的评估基准,使其能够更好地反映模型的可信度。这种从社会和技术两个层面入手解决问题的方法,具有重要的指导意义。

关键设计:论文并没有涉及具体的参数设置、损失函数或网络结构的设计。其重点在于对现有训练和评估流程的分析,以及对评估指标的改进建议。例如,论文建议修改现有基准的评分方式,对模型承认不确定性的行为给予奖励,从而鼓励模型更加诚实地回答问题。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文通过分析指出,现有语言模型的训练和评估机制存在偏差,导致模型倾向于猜测而非承认不确定性,这是产生幻觉的根本原因。论文强调,解决幻觉问题需要修改现有基准的评分方式,而非仅仅引入额外的幻觉评估指标。这一观点对领域内的研究方向具有重要的指导意义。

🎯 应用场景

该研究成果可应用于提升各种自然语言处理系统的可靠性和可信度,例如智能客服、问答系统、内容生成工具等。通过减少模型产生幻觉的可能性,可以提高用户对这些系统的信任度,并降低因错误信息带来的风险。未来,该研究有望推动AI系统朝着更加安全、可靠和负责任的方向发展。

📄 摘要(原文)

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.