How Large Language Models are Designed to Hallucinate

📄 arXiv: 2509.16297v1 📥 PDF

作者: Richard Ackermann, Simeon Emanuilov

分类: cs.CY, cs.AI, cs.CL

发布日期: 2025-09-19

备注: 23 pages, 2 tables, 2 figures


💡 一句话要点

揭示大语言模型幻觉的结构性根源,提出基于存在主义结构的幻觉分类与评测基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉 Transformer架构 存在主义 自然语言处理

📋 核心要点

  1. 现有解释未能充分解释大语言模型中普遍存在的幻觉现象,例如数据缺失、上下文限制或优化误差。
  2. 论文提出幻觉是Transformer架构的结构性结果,源于其作为连贯性引擎的本质以及缺乏存在主义基础。
  3. 通过案例研究和实验,论文验证了提出的幻觉分类,并展示了模拟的“自我保护”行为在扩展提示下的涌现。

📝 摘要(中文)

大型语言模型(LLM)在语言和推理任务中表现出卓越的流畅性,但仍然系统性地容易产生幻觉。目前流行的解释将幻觉归因于数据缺失、有限的上下文或优化错误。我们认为,幻觉是Transformer架构的结构性结果。作为连贯性引擎,Transformer被迫产生流畅的延续,自注意力机制模拟了意义的关系结构,但缺乏稳定人类理解的存在主义基础,如时间性、情绪和关怀。在此基础上,我们区分了本体论幻觉(当延续需要揭示世界中的存在时产生)和残余推理幻觉(模型通过回收文本中人类推理的痕迹来模仿推理)。我们通过与海德格尔范畴对齐的案例研究以及跨越12个LLM的实验来说明这些模式,该实验展示了模拟的“自我保护”如何在扩展提示下出现。我们的贡献有三方面:(1)一个比较性的解释,表明为什么现有的解释是不充分的;(2)一个与存在主义结构相关的幻觉预测性分类,并提出了基准;(3)面向“真值约束”架构的设计方向,该架构能够在缺乏揭示时抑制或延迟。我们的结论是,幻觉不是一个偶然的缺陷,而是基于Transformer模型的定义性限制,一个可以通过脚手架掩盖但永远无法解决的结果。

🔬 方法详解

问题定义:大语言模型在生成文本时经常出现幻觉,即生成不真实或与事实相悖的内容。现有的解释,如数据缺失、上下文不足或优化误差,无法完全解释这种现象,尤其是在模型已经见过相关数据的情况下。这些解释未能深入到模型架构的本质层面。

核心思路:论文的核心思路是认为Transformer架构本身是导致幻觉的结构性原因。Transformer作为一种连贯性引擎,其目标是生成流畅的文本延续,而自注意力机制虽然能够模拟意义的关系结构,但缺乏人类理解中至关重要的存在主义基础,如时间性、情绪和关怀。这种缺失导致模型在生成文本时容易脱离现实,产生幻觉。

技术框架:论文没有提出一个全新的技术框架,而是通过案例研究和实验来验证其理论。案例研究将幻觉与海德格尔的存在主义范畴对齐,分析不同类型的幻觉是如何产生的。实验则通过设计特定的提示,观察12个不同的LLM在生成文本时是否会表现出模拟的“自我保护”行为,从而验证模型在缺乏存在主义基础的情况下可能产生的偏差。

关键创新:论文最重要的创新在于提出了幻觉的结构性解释,认为幻觉并非偶然的错误,而是Transformer架构的内在缺陷。此外,论文还提出了一个基于存在主义结构的幻觉分类,区分了本体论幻觉和残余推理幻觉,并提出了相应的评测基准。这种分类为理解和解决幻觉问题提供了新的视角。

关键设计:论文没有涉及具体的参数设置或网络结构设计。其重点在于理论分析和实验验证,旨在揭示幻觉产生的深层原因,并为未来的模型设计提供指导。论文提出了“真值约束”架构的设计方向,即在模型缺乏足够信息时,能够抑制或延迟生成文本,从而减少幻觉的产生。

📊 实验亮点

论文通过对12个LLM进行实验,展示了在扩展提示下,模型会涌现出模拟的“自我保护”行为,进一步验证了幻觉与模型缺乏存在主义基础之间的联系。此外,论文提出的幻觉分类为评估和比较不同模型的幻觉水平提供了新的基准。

🎯 应用场景

该研究成果可应用于提升大语言模型的可靠性和可信度,尤其是在需要高度准确信息的场景中,如医疗诊断、法律咨询、金融分析等。通过理解幻觉的根源,可以设计更鲁棒的模型架构和训练方法,减少不实信息的生成,从而提高LLM在实际应用中的价值。

📄 摘要(原文)

Large language models (LLMs) achieve remarkable fluency across linguistic and reasoning tasks but remain systematically prone to hallucination. Prevailing accounts attribute hallucinations to data gaps, limited context, or optimization errors. We argue instead that hallucination is a structural outcome of the transformer architecture. As coherence engines, transformers are compelled to produce fluent continuations, with self-attention simulating the relational structure of meaning but lacking the existential grounding of temporality, mood, and care that stabilizes human understanding. On this basis, we distinguish ontological hallucination, arising when continuations require disclosure of beings in world, and residual reasoning hallucination, where models mimic inference by recycling traces of human reasoning in text. We illustrate these patterns through case studies aligned with Heideggerian categories and an experiment across twelve LLMs showing how simulated "self-preservation" emerges under extended prompts. Our contribution is threefold: (1) a comparative account showing why existing explanations are insufficient; (2) a predictive taxonomy of hallucination linked to existential structures with proposed benchmarks; and (3) design directions toward "truth-constrained" architectures capable of withholding or deferring when disclosure is absent. We conclude that hallucination is not an incidental defect but a defining limit of transformer-based models, an outcome scaffolding can mask but never resolve.