H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

📄 arXiv: 2512.01797v2 📥 PDF

作者: Cheng Gao, Huimin Chen, Chaojun Xiao, Zhiyi Chen, Zhiyuan Liu, Maosong Sun

分类: cs.AI, cs.CL, cs.CY

发布日期: 2025-12-01 (更新: 2025-12-02)

备注: 20 pages, 4 figures


💡 一句话要点

发现并分析LLM中与幻觉相关的神经元(H-Neurons),揭示其影响与起源

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉问题 神经元分析 因果关系 预训练模型

📋 核心要点

  1. 现有工作主要从宏观层面研究LLM幻觉,缺乏对神经元层面机制的探索,限制了对幻觉本质的理解。
  2. 该论文通过识别、干预和溯源等方法,系统研究了LLM中与幻觉相关的神经元(H-Neurons),揭示其行为影响和起源。
  3. 实验表明,少量神经元即可预测幻觉,且与过度顺从行为存在因果关系,这些神经元在预训练阶段已经出现。

📝 摘要(中文)

大型语言模型(LLMs)经常产生幻觉——看似合理但实际上不正确的输出——降低了它们的可靠性。以往的研究主要从宏观角度,如训练数据和目标,来考察幻觉问题,而神经元层面的潜在机制在很大程度上仍未被探索。本文从三个角度对LLM中与幻觉相关的神经元(H-Neurons)进行了系统研究:识别、行为影响和起源。在识别方面,我们证明了神经元的一个非常稀疏的子集(不到总神经元的0.1%)可以可靠地预测幻觉的发生,并在不同的场景中具有很强的泛化能力。在行为影响方面,受控干预表明这些神经元与过度顺从行为存在因果关系。关于它们的起源,我们将这些神经元追溯到预训练的基础模型,发现这些神经元仍然可以预测幻觉的检测,表明它们是在预训练期间出现的。我们的发现将宏观行为模式与微观神经机制联系起来,为开发更可靠的LLM提供了见解。

🔬 方法详解

问题定义:大型语言模型(LLMs)的幻觉问题严重影响了其可靠性。现有的研究主要集中在训练数据、目标函数等宏观层面,缺乏对神经元层面机制的深入理解。因此,如何识别、理解和控制LLM中的幻觉相关神经元(H-Neurons)成为一个重要的研究问题。现有方法无法精确定位和分析这些神经元,难以从根本上解决幻觉问题。

核心思路:该论文的核心思路是通过系统性的实验方法,从识别、行为影响和起源三个角度深入研究H-Neurons。首先,通过统计分析识别出与幻觉高度相关的神经元;然后,通过干预实验验证这些神经元与幻觉行为的因果关系;最后,通过追溯这些神经元的起源,探究其在预训练过程中的形成机制。这种多角度的研究方法有助于全面理解H-Neurons在LLM中的作用。

技术框架:该研究的技术框架主要包括三个阶段:1) H-Neuron识别:利用统计方法,分析神经元的激活模式与幻觉之间的相关性,从而识别出H-Neurons。2) 行为影响分析:通过对H-Neurons进行激活或抑制等干预操作,观察LLM的输出变化,从而分析H-Neurons对幻觉行为的影响。3) 起源追溯:将识别出的H-Neurons追溯到预训练的基础模型,分析其在预训练过程中的形成和演化。

关键创新:该论文最重要的技术创新点在于首次系统性地研究了LLM中与幻觉相关的神经元,并揭示了这些神经元在幻觉行为中的作用。具体来说,该研究发现:1) 仅有极少数神经元(<0.1%)即可有效预测幻觉;2) 这些神经元与LLM的过度顺从行为存在因果关系;3) 这些神经元在预训练阶段就已经出现。这些发现为理解和解决LLM的幻觉问题提供了新的视角。

关键设计:在H-Neuron识别阶段,论文采用了基于统计相关性的方法,计算每个神经元的激活值与幻觉发生概率之间的相关系数,并选择相关系数最高的神经元作为H-Neurons。在行为影响分析阶段,论文设计了受控干预实验,通过人为激活或抑制H-Neurons,观察LLM的输出变化。在起源追溯阶段,论文将识别出的H-Neurons映射到预训练模型中,分析其在预训练过程中的激活模式和连接权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究发现,仅有不到0.1%的神经元可以可靠地预测幻觉的发生,并且这些神经元与LLM的过度顺从行为存在因果关系。更重要的是,这些神经元在预训练阶段就已经存在,这表明幻觉问题可能源于预训练数据或模型结构本身。这些发现为后续研究提供了重要的线索。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可靠性和可信度。通过识别和控制H-Neurons,可以减少LLM产生幻觉的可能性,提高其在知识问答、文本生成等任务中的准确性。此外,该研究也为开发更安全、更可控的LLM提供了新的思路,例如,可以通过在训练过程中抑制H-Neurons的形成,从而降低LLM产生幻觉的风险。

📄 摘要(原文)

Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1\%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.