WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior

📄 arXiv: 2603.18474v1 📥 PDF

作者: Haonan Yu, Junhao Liu, Zhenyu Yan, Haoran Lin, Xin Zhang

分类: cs.CL, cs.AI

发布日期: 2026-03-19


💡 一句话要点

WASD:通过定位关键神经元作为充分条件来解释和控制LLM行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 行为控制 神经元解释 充分条件 可解释性

📋 核心要点

  1. 现有LLM控制方法训练成本高昂,缺乏自然语言可控性,并且可能损害语义连贯性。
  2. WASD框架通过识别token生成的充分神经条件来解释模型行为,实现更精确的行为控制。
  3. 实验表明,WASD生成的解释更稳定、准确、简洁,并在跨语言控制任务中表现出实际有效性。

📝 摘要(中文)

大型语言模型(LLM)的精确行为控制对于复杂应用至关重要。然而,现有方法通常存在训练成本高、缺乏自然语言可控性或损害语义连贯性等问题。为了弥合这一差距,我们提出了WASD(解缠可操作的充分指令),这是一个新颖的框架,通过识别token生成的充分神经条件来解释模型行为。我们的方法将候选条件表示为神经元激活谓词,并迭代搜索最小集合,以保证在输入扰动下当前输出。在SST-2和CounterFact上使用Gemma-2-2B模型的实验表明,我们的方法产生的解释比传统的归因图更稳定、准确和简洁。此外,通过对控制跨语言输出生成的案例研究,我们验证了WASD在控制模型行为方面的实际有效性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)行为控制的问题。现有方法,如微调或强化学习,通常需要大量的训练数据和计算资源,并且难以实现细粒度的控制。此外,基于归因的方法虽然可以解释模型的决策过程,但通常不够稳定和简洁,难以直接用于控制模型行为。

核心思路:WASD的核心思路是找到一组关键神经元,它们的激活状态足以保证模型生成特定的token。通过识别这些“充分条件”,可以理解模型做出特定决策的原因,并可以通过干预这些神经元的激活状态来控制模型的行为。这种方法避免了大规模的训练,并且提供了更直接和可解释的控制方式。

技术框架:WASD框架包含以下几个主要阶段:1) 候选条件生成:首先,针对每个token生成,识别所有可能的神经元激活谓词作为候选条件。2) 充分条件搜索:然后,通过迭代搜索,找到一个最小的神经元激活谓词集合,该集合能够保证在输入扰动下模型仍然生成相同的token。这个过程涉及到对模型进行多次前向传播,并评估候选条件的充分性。3) 行为控制:最后,通过干预这些关键神经元的激活状态,可以控制模型的行为,例如改变模型的输出或使其生成特定的内容。

关键创新:WASD的关键创新在于它将模型解释问题转化为一个搜索充分条件的问题。与传统的归因方法不同,WASD关注的是保证模型行为的最小神经元集合,而不是所有对模型决策有影响的神经元。这种方法能够产生更简洁、更稳定的解释,并且可以直接用于控制模型行为。

关键设计:WASD使用神经元激活谓词来表示候选条件,例如“神经元X的激活值大于阈值Y”。充分条件搜索过程使用了一种贪心算法,迭代地选择能够最大程度保证模型输出的神经元集合。为了评估候选条件的充分性,论文使用了输入扰动技术,即对输入进行微小的修改,并观察模型是否仍然生成相同的token。具体的参数设置,如阈值Y的选择和输入扰动的幅度,需要根据具体的模型和任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,WASD在SST-2和CounterFact数据集上,使用Gemma-2-2B模型时,能够生成比传统归因图更稳定、准确和简洁的解释。案例研究表明,WASD能够有效地控制模型的跨语言输出生成,验证了其在控制模型行为方面的实际有效性。具体性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

WASD可应用于多种场景,例如:提高LLM在特定任务上的可靠性,通过干预关键神经元来纠正模型的错误行为;增强LLM的可控性,使其能够生成符合特定要求的文本;以及提升LLM的安全性,防止其生成有害或不当的内容。此外,WASD还可以用于分析和理解LLM的内部工作机制,为模型改进提供指导。

📄 摘要(原文)

Precise behavioral control of large language models (LLMs) is critical for complex applications. However, existing methods often incur high training costs, lack natural language controllability, or compromise semantic coherence. To bridge this gap, we propose WASD (unWeaving Actionable Sufficient Directives), a novel framework that explains model behavior by identifying sufficient neural conditions for token generation. Our method represents candidate conditions as neuron-activation predicates and iteratively searches for a minimal set that guarantees the current output under input perturbations. Experiments on SST-2 and CounterFact with the Gemma-2-2B model demonstrate that our approach produces explanations that are more stable, accurate, and concise than conventional attribution graphs. Moreover, through a case study on controlling cross-lingual output generation, we validated the practical effectiveness of WASD in controlling model behavior.