Sparse Neurons Carry Strong Signals of Question Ambiguity in LLMs

📄 arXiv: 2509.13664v1 📥 PDF

作者: Zhuoxuan Zhang, Jinhao Duan, Edward Kim, Kaidi Xu

分类: cs.CL, cs.AI

发布日期: 2025-09-17

备注: To be appeared in EMNLP 2025 (main)


💡 一句话要点

发现LLM中编码问题歧义的稀疏神经元,实现歧义检测与行为控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 问题歧义 神经元激活 可解释性 行为控制

📋 核心要点

  1. 大型语言模型在处理歧义问题时倾向于直接回答,缺乏澄清机制,这限制了其在现实场景中的可靠性。
  2. 该论文提出识别并操纵LLM中编码问题歧义的特定神经元(AEN),以此来控制模型对歧义问题的响应行为。
  3. 实验表明,基于AEN的歧义检测方法优于现有基线,并且可以通过操纵AEN来改变LLM的回答策略。

📝 摘要(中文)

现实世界的问题中普遍存在歧义,但大型语言模型(LLM)通常会给出自信的答案,而不是寻求澄清。本文表明,问题歧义在线性编码在LLM的内部表示中,并且可以在神经元级别进行检测和控制。在模型的预填充阶段,我们发现少量神经元(甚至只有一个)编码了问题歧义信息。在这些歧义编码神经元(AEN)上训练的探针在歧义检测方面表现出色,并且可以跨数据集泛化,优于基于提示和基于表示的基线方法。分层分析表明,AEN出现在浅层,表明模型处理流程中对歧义信号的早期编码。最后,我们表明,通过操纵AEN,我们可以控制LLM的行为,使其从直接回答转为放弃回答。我们的研究结果表明,LLM形成了问题歧义的紧凑内部表示,从而实现了可解释和可控的行为。

🔬 方法详解

问题定义:大型语言模型在面对具有歧义性的问题时,通常会直接给出答案,而缺乏主动识别和处理歧义的能力。这会导致模型在不明确问题意图的情况下做出错误的推断和决策。现有方法,如基于提示工程或表示学习的方法,在歧义检测和控制方面效果有限,且缺乏可解释性。

核心思路:该论文的核心思路是,LLM内部存在专门编码问题歧义信息的神经元(Ambiguity-Encoding Neurons, AENs)。通过识别和操纵这些AENs,可以有效地检测问题中的歧义,并控制LLM对歧义问题的响应行为,例如从直接回答转变为拒绝回答或请求澄清。

技术框架:该研究的技术框架主要包含以下几个阶段:1) 数据收集和标注:构建包含歧义和非歧义问题的训练数据集。2) AEN识别:通过训练探针(例如线性分类器)来识别LLM中对歧义信息敏感的神经元,即AENs。3) 歧义检测:利用训练好的探针,基于AENs的激活状态来判断输入问题是否具有歧义。4) 行为控制:通过直接干预AENs的激活状态,来控制LLM对歧义问题的响应行为。

关键创新:该论文最重要的技术创新在于发现了LLM中存在专门编码问题歧义信息的稀疏神经元(AENs),并证明了可以通过操纵这些神经元来控制LLM的行为。与现有方法相比,该方法具有更高的可解释性和可控性,并且在歧义检测方面表现更优。

关键设计:在AEN识别阶段,使用线性探针(例如logistic regression)来学习神经元激活与问题歧义标签之间的关系。选择激活值与歧义标签相关性最高的少量神经元作为AENs。在行为控制阶段,可以通过直接设置AENs的激活值为特定值(例如0或平均值)来抑制或增强LLM对歧义问题的敏感性。

📊 实验亮点

实验结果表明,基于AENs的歧义检测方法在多个数据集上均优于基于提示和基于表示的基线方法。通过操纵AENs,可以有效地控制LLM对歧义问题的响应行为,例如使其从直接回答转变为拒绝回答。研究还发现,AENs主要位于LLM的浅层,表明模型在早期阶段就对歧义信息进行了编码。

🎯 应用场景

该研究成果可应用于提升LLM在开放域问答、对话系统和智能助手等场景中的可靠性和安全性。通过识别和处理问题中的歧义,可以避免模型在不明确用户意图的情况下给出错误的答案,从而提高用户满意度和信任度。此外,该方法还可以用于开发更具解释性和可控性的LLM,促进人机协作。

📄 摘要(原文)

Ambiguity is pervasive in real-world questions, yet large language models (LLMs) often respond with confident answers rather than seeking clarification. In this work, we show that question ambiguity is linearly encoded in the internal representations of LLMs and can be both detected and controlled at the neuron level. During the model's pre-filling stage, we identify that a small number of neurons, as few as one, encode question ambiguity information. Probes trained on these Ambiguity-Encoding Neurons (AENs) achieve strong performance on ambiguity detection and generalize across datasets, outperforming prompting-based and representation-based baselines. Layerwise analysis reveals that AENs emerge from shallow layers, suggesting early encoding of ambiguity signals in the model's processing pipeline. Finally, we show that through manipulating AENs, we can control LLM's behavior from direct answering to abstention. Our findings reveal that LLMs form compact internal representations of question ambiguity, enabling interpretable and controllable behavior.