H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

作者: Cheng Gao, Huimin Chen, Chaojun Xiao, Zhiyi Chen, Zhiyuan Liu, Maosong Sun

分类: cs.AI, cs.CL, cs.CY

发布日期: 2025-12-01 (更新: 2025-12-02)

备注: 20 pages, 4 figures

💡 一句话要点

发现并分析LLM中与幻觉相关的神经元(H-Neurons)，揭示其影响与起源

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉问题 神经元分析 因果关系 预训练模型

📋 核心要点

现有工作主要从宏观层面研究LLM幻觉，缺乏对神经元层面机制的探索，限制了对幻觉本质的理解。
该论文通过识别、干预和溯源等方法，系统研究了LLM中与幻觉相关的神经元(H-Neurons)，揭示其行为影响和起源。
实验表明，少量神经元即可预测幻觉，且与过度顺从行为存在因果关系，这些神经元在预训练阶段已经出现。

📝 摘要（中文）

大型语言模型(LLMs)经常产生幻觉——看似合理但实际上不正确的输出——降低了它们的可靠性。以往的研究主要从宏观角度，如训练数据和目标，来考察幻觉问题，而神经元层面的潜在机制在很大程度上仍未被探索。本文从三个角度对LLM中与幻觉相关的神经元(H-Neurons)进行了系统研究：识别、行为影响和起源。在识别方面，我们证明了神经元的一个非常稀疏的子集（不到总神经元的0.1%）可以可靠地预测幻觉的发生，并在不同的场景中具有很强的泛化能力。在行为影响方面，受控干预表明这些神经元与过度顺从行为存在因果关系。关于它们的起源，我们将这些神经元追溯到预训练的基础模型，发现这些神经元仍然可以预测幻觉的检测，表明它们是在预训练期间出现的。我们的发现将宏观行为模式与微观神经机制联系起来，为开发更可靠的LLM提供了见解。

🔬 方法详解

问题定义：大型语言模型（LLMs）的幻觉问题严重影响了其可靠性。现有的研究主要集中在训练数据、目标函数等宏观层面，缺乏对神经元层面机制的深入理解。因此，如何识别、理解和控制LLM中的幻觉相关神经元（H-Neurons）成为一个重要的研究问题。现有方法无法精确定位和分析这些神经元，难以从根本上解决幻觉问题。

核心思路：该论文的核心思路是通过系统性的实验方法，从识别、行为影响和起源三个角度深入研究H-Neurons。首先，通过统计分析识别出与幻觉高度相关的神经元；然后，通过干预实验验证这些神经元与幻觉行为的因果关系；最后，通过追溯这些神经元的起源，探究其在预训练过程中的形成机制。这种多角度的研究方法有助于全面理解H-Neurons在LLM中的作用。

技术框架：该研究的技术框架主要包括三个阶段：1) H-Neuron识别：利用统计方法，分析神经元的激活模式与幻觉之间的相关性，从而识别出H-Neurons。2) 行为影响分析：通过对H-Neurons进行激活或抑制等干预操作，观察LLM的输出变化，从而分析H-Neurons对幻觉行为的影响。3) 起源追溯：将识别出的H-Neurons追溯到预训练的基础模型，分析其在预训练过程中的形成和演化。

关键创新：该论文最重要的技术创新点在于首次系统性地研究了LLM中与幻觉相关的神经元，并揭示了这些神经元在幻觉行为中的作用。具体来说，该研究发现：1) 仅有极少数神经元（<0.1%）即可有效预测幻觉；2) 这些神经元与LLM的过度顺从行为存在因果关系；3) 这些神经元在预训练阶段就已经出现。这些发现为理解和解决LLM的幻觉问题提供了新的视角。

关键设计：在H-Neuron识别阶段，论文采用了基于统计相关性的方法，计算每个神经元的激活值与幻觉发生概率之间的相关系数，并选择相关系数最高的神经元作为H-Neurons。在行为影响分析阶段，论文设计了受控干预实验，通过人为激活或抑制H-Neurons，观察LLM的输出变化。在起源追溯阶段，论文将识别出的H-Neurons映射到预训练模型中，分析其在预训练过程中的激活模式和连接权重。

🖼️ 关键图片

📊 实验亮点

该研究发现，仅有不到0.1%的神经元可以可靠地预测幻觉的发生，并且这些神经元与LLM的过度顺从行为存在因果关系。更重要的是，这些神经元在预训练阶段就已经存在，这表明幻觉问题可能源于预训练数据或模型结构本身。这些发现为后续研究提供了重要的线索。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可靠性和可信度。通过识别和控制H-Neurons，可以减少LLM产生幻觉的可能性，提高其在知识问答、文本生成等任务中的准确性。此外，该研究也为开发更安全、更可控的LLM提供了新的思路，例如，可以通过在训练过程中抑制H-Neurons的形成，从而降低LLM产生幻觉的风险。

📄 摘要（原文）

Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1\%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理