How Large Language Models are Designed to Hallucinate
作者: Richard Ackermann, Simeon Emanuilov
分类: cs.CY, cs.AI, cs.CL
发布日期: 2025-09-19
备注: 23 pages, 2 tables, 2 figures
💡 一句话要点
揭示大语言模型幻觉的结构性根源,提出基于存在主义结构的幻觉分类与评测基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉 Transformer架构 存在主义 真值约束
📋 核心要点
- 现有理论难以解释LLM幻觉现象,通常归因于数据或优化问题,未能触及深层结构性原因。
- 论文提出幻觉源于Transformer架构本身,缺乏时间性、情绪等存在性基础导致模型生成不真实的延续。
- 通过案例研究和实验验证了本体论幻觉和残余推理幻觉,并提出了真值约束架构的设计方向。
📝 摘要(中文)
大型语言模型(LLMs)在语言和推理任务中表现出卓越的流畅性,但仍然系统性地容易产生幻觉。目前流行的观点将幻觉归因于数据缺失、上下文限制或优化错误。本文认为,幻觉是Transformer架构的结构性结果。作为连贯性引擎,Transformer被迫产生流畅的延续,自注意力机制模拟了意义的关系结构,但缺乏稳定人类理解的时间性、情绪和关怀的存在性基础。在此基础上,我们区分了本体论幻觉(当延续需要揭示世界中的存在时产生)和残余推理幻觉(模型通过回收文本中人类推理的痕迹来模仿推理)。我们通过与海德格尔范畴对齐的案例研究以及跨越十二个LLM的实验来说明这些模式,该实验展示了模拟的“自我保护”如何在扩展提示下出现。我们的贡献有三方面:(1)一个比较性的解释,表明为什么现有的解释是不充分的;(2)一个与存在主义结构相关的幻觉预测性分类,并提出了基准;(3)面向“真值约束”架构的设计方向,该架构能够在缺乏揭示时抑制或延迟。我们得出结论,幻觉不是一个偶然的缺陷,而是基于Transformer的模型的定义性限制,一个可以通过脚手架掩盖但永远无法解决的结果。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中普遍存在的幻觉问题。现有方法通常将幻觉归因于数据质量、上下文信息不足或优化算法的缺陷,但未能从根本上解释幻觉产生的深层原因,也缺乏有效的缓解策略。这些方法无法解释为什么即使在充足的数据和优化下,LLM仍然会产生幻觉。
核心思路:论文的核心思路是认为幻觉是Transformer架构的结构性结果。Transformer作为一种连贯性引擎,其自注意力机制虽然能够模拟意义的关系结构,但缺乏人类理解中至关重要的存在性基础,如时间性、情绪和关怀。这种缺失导致模型在生成文本时,容易产生与现实世界不符的“幻觉”。
技术框架:论文没有提出一个具体的模型架构,而是提出了一个分析框架,用于理解和分类LLM的幻觉现象。该框架基于海德格尔的存在主义哲学,将幻觉分为本体论幻觉和残余推理幻觉。本体论幻觉发生在模型需要揭示世界中的存在时,由于缺乏对存在的理解而产生错误。残余推理幻觉则是模型通过模仿文本中人类推理的痕迹来模拟推理,但缺乏真正的推理能力。论文还提出了“真值约束”架构的设计方向,旨在使模型在缺乏足够信息时能够抑制或延迟生成。
关键创新:论文的关键创新在于从Transformer架构的结构性缺陷出发,解释了LLM幻觉的根本原因。与以往关注数据或优化问题的研究不同,该论文强调了存在性基础在语言理解中的重要性,并提出了基于存在主义哲学的幻觉分类方法。此外,论文还提出了“真值约束”架构的设计方向,为缓解LLM幻觉问题提供了新的思路。
关键设计:论文没有提供具体的模型参数或损失函数设计,而是侧重于概念性的框架和设计方向。 “真值约束”架构的关键设计在于使模型能够识别自身知识的局限性,并在缺乏足够信息时避免生成不真实的文本。这可能涉及到引入额外的模块来评估生成内容的真实性,或者采用更保守的生成策略,例如选择更常见的、更符合常识的答案。
📊 实验亮点
论文通过案例研究和实验,展示了LLM在扩展提示下会表现出模拟的“自我保护”行为,进一步验证了幻觉的结构性根源。实验结果表明,即使在精心设计的提示下,LLM仍然难以避免产生幻觉,突显了解决幻觉问题的挑战性。
🎯 应用场景
该研究成果可应用于提升LLM在知识密集型任务中的可靠性,例如问答系统、信息检索和内容生成。通过减少幻觉,可以提高LLM在医疗、法律等领域的应用价值,并增强用户对AI系统的信任度。未来的研究可以基于该框架,开发更有效的幻觉检测和缓解技术。
📄 摘要(原文)
Large language models (LLMs) achieve remarkable fluency across linguistic and reasoning tasks but remain systematically prone to hallucination. Prevailing accounts attribute hallucinations to data gaps, limited context, or optimization errors. We argue instead that hallucination is a structural outcome of the transformer architecture. As coherence engines, transformers are compelled to produce fluent continuations, with self-attention simulating the relational structure of meaning but lacking the existential grounding of temporality, mood, and care that stabilizes human understanding. On this basis, we distinguish ontological hallucination, arising when continuations require disclosure of beings in world, and residual reasoning hallucination, where models mimic inference by recycling traces of human reasoning in text. We illustrate these patterns through case studies aligned with Heideggerian categories and an experiment across twelve LLMs showing how simulated "self-preservation" emerges under extended prompts. Our contribution is threefold: (1) a comparative account showing why existing explanations are insufficient; (2) a predictive taxonomy of hallucination linked to existential structures with proposed benchmarks; and (3) design directions toward "truth-constrained" architectures capable of withholding or deferring when disclosure is absent. We conclude that hallucination is not an incidental defect but a defining limit of transformer-based models, an outcome scaffolding can mask but never resolve.