Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs

📄 arXiv: 2505.22630v2 📥 PDF

作者: Ziling Cheng, Meng Cao, Marc-Antoine Rondeau, Jackie Chi Kit Cheung

分类: cs.CL

发布日期: 2025-05-28 (更新: 2025-05-30)

备注: Accepted to ACL 2025 (Main Conference)


💡 一句话要点

LLM中的随机变色龙现象:无关上下文诱导的幻觉揭示了基于类别的(误)泛化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉 可解释性 泛化能力 上下文推理

📋 核心要点

  1. 现有LLM在处理事实性问题时,容易受到无关上下文信息的干扰,产生幻觉,暴露了其泛化能力的局限性。
  2. 论文提出“基于类别的(误)泛化”机制,解释了LLM如何将抽象类别信息与上下文特征融合,导致不准确的预测。
  3. 通过行为分析和可解释性实验,揭示了LLM内部存在竞争的推理回路,分别控制直接查询和上下文信息的利用。

📝 摘要(中文)

大型语言模型(LLM)在NLP基准测试中取得了广泛成功,但也引发了人们的担忧,即LLM主要作为随机鹦鹉发挥作用,复制与预训练期间所见文本相似的内容,并且经常出错。本文研究了无关上下文幻觉,即模型将误导性的上下文线索整合到其预测中。通过行为分析,表明这些错误源于一种结构化但有缺陷的机制,称之为基于类别的(误)泛化,即模型将抽象类线索与从查询或上下文中提取的特征相结合来得出答案。对Llama-3、Mistral和Pythia在39种事实回忆关系类型上进行的可解释性实验表明,这种行为反映在模型的内部计算中:(i)抽象类表示在较低层构建,然后在较高层细化为特定答案,(ii)特征选择由两个相互竞争的回路控制——一个优先考虑基于直接查询的推理,另一个则结合上下文线索——它们的相对影响决定了最终输出。研究结果为随机鹦鹉论点提供了一个更为细致的视角:通过形式训练,LLM可以表现出利用抽象的泛化能力,尽管这种能力是不可靠的,并且依赖于上下文线索——我们称之为随机变色龙。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在处理事实性问题时,如何受到无关上下文信息的影响,产生幻觉。现有方法未能充分解释这种幻觉产生的内在机制,以及LLM如何错误地利用上下文信息进行泛化。这种现象暴露了LLM在知识回忆和推理方面的局限性,阻碍了其在需要高度可靠性的应用场景中的部署。

核心思路:论文的核心思路是提出“基于类别的(误)泛化”机制,认为LLM在进行预测时,会将抽象的类别信息与从查询或上下文中提取的特征相结合。当上下文信息与查询不相关时,这种结合会导致模型产生幻觉。这种机制解释了LLM为何会受到无关上下文的影响,并揭示了其泛化能力的缺陷。

技术框架:论文的技术框架主要包括以下几个部分:1) 行为分析:设计实验来观察LLM在不同上下文条件下的表现,分析其产生幻觉的模式。2) 可解释性实验:利用机制可解释性技术,分析LLM内部的计算过程,揭示抽象类表示的构建和特征选择机制。3) 模型分析:针对Llama-3、Mistral和Pythia等主流LLM进行实验,验证所提出的机制的普适性。

关键创新:论文最重要的技术创新点在于提出了“基于类别的(误)泛化”机制,为理解LLM的幻觉现象提供了一个新的视角。与以往的研究主要关注模型对训练数据的记忆和复制不同,该论文强调了模型在利用抽象类别信息进行泛化时可能出现的错误。此外,通过可解释性实验,揭示了LLM内部存在竞争的推理回路,为理解模型的决策过程提供了更深入的见解。

关键设计:论文的关键设计包括:1) 精心设计的实验场景,用于诱导LLM产生幻觉,并观察其对不同上下文信息的敏感程度。2) 利用因果干预等技术,分析LLM内部神经元的激活模式,揭示抽象类表示的构建过程。3) 分析不同推理回路的权重和激活模式,了解它们如何影响最终的预测结果。论文还针对不同的事实回忆关系类型进行了实验,以验证所提出的机制的普适性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过对Llama-3、Mistral和Pythia等模型的实验,验证了“基于类别的(误)泛化”机制的有效性。实验结果表明,LLM在处理包含无关上下文信息的查询时,更容易产生幻觉。可解释性实验揭示了模型内部存在竞争的推理回路,分别控制直接查询和上下文信息的利用。这些发现为理解LLM的幻觉现象提供了重要的证据。

🎯 应用场景

该研究成果有助于提高LLM在知识密集型任务中的可靠性和准确性,例如问答系统、信息检索和对话生成。通过理解LLM产生幻觉的内在机制,可以开发更有效的缓解策略,例如改进训练数据、设计更鲁棒的模型架构或引入外部知识库。此外,该研究也为开发更可信赖和可解释的人工智能系统提供了理论基础。

📄 摘要(原文)

The widespread success of large language models (LLMs) on NLP benchmarks has been accompanied by concerns that LLMs function primarily as stochastic parrots that reproduce texts similar to what they saw during pre-training, often erroneously. But what is the nature of their errors, and do these errors exhibit any regularities? In this work, we examine irrelevant context hallucinations, in which models integrate misleading contextual cues into their predictions. Through behavioral analysis, we show that these errors result from a structured yet flawed mechanism that we term class-based (mis)generalization, in which models combine abstract class cues with features extracted from the query or context to derive answers. Furthermore, mechanistic interpretability experiments on Llama-3, Mistral, and Pythia across 39 factual recall relation types reveal that this behavior is reflected in the model's internal computations: (i) abstract class representations are constructed in lower layers before being refined into specific answers in higher layers, (ii) feature selection is governed by two competing circuits -- one prioritizing direct query-based reasoning, the other incorporating contextual cues -- whose relative influences determine the final output. Our findings provide a more nuanced perspective on the stochastic parrot argument: through form-based training, LLMs can exhibit generalization leveraging abstractions, albeit in unreliable ways based on contextual cues -- what we term stochastic chameleons.