Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs
作者: Hongliang Liu, Tung-Ling Li, Yuhao Wu
分类: cs.CL, cs.LG
发布日期: 2026-04-30
💡 一句话要点
提出扰动探测方法以诊断对齐大模型中的FFN行为电路
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 前馈神经网络 扰动探测 行为电路 强化学习 模型优化 因果推断
📋 核心要点
- 现有方法在理解大语言模型的行为电路时缺乏有效的因果推断手段,尤其是在处理复杂的行为模式时。
- 论文提出的扰动探测方法通过两次前向传递生成因果假设,并通过干预特定神经元来分析模型行为。
- 实验结果显示,针对特定神经元的干预能够显著改变模型的响应格式和准确性,提升了模型在多个任务上的表现。
📝 摘要(中文)
扰动探测通过对每个提示进行两次前向传递,生成针对大语言模型中前馈神经网络(FFN)神经元的任务特定因果假设,且无需反向传播。研究发现,在八个行为电路、13个模型和四个架构家族中,识别出两种电路结构,分别是反对电路和路由电路。反对电路在强化学习人类反馈(RLHF)抑制预训练倾向时出现,而路由电路则用于分布在注意力机制中的预训练行为。通过对特定神经元的干预,显著改善了模型的响应格式和准确性,展示了扰动探测在理解RLHF组织行为中的机制性洞察和精确模板层编辑的实用工具。
🔬 方法详解
问题定义:论文旨在解决如何有效识别和干预大语言模型中的FFN行为电路的问题。现有方法在因果推断和行为分析上存在局限性,难以准确定位影响模型行为的神经元。
核心思路:论文提出的扰动探测方法通过两次前向传递生成任务特定的因果假设,随后对识别出的神经元进行干预,以分析和优化模型行为。这样的设计避免了反向传播的复杂性,简化了过程。
技术框架:整体流程包括两次前向传递生成因果假设,随后对约150个神经元进行干预。通过对比不同模型和架构,识别出反对电路和路由电路的特征。
关键创新:最重要的创新在于通过扰动探测方法有效识别和干预FFN电路,揭示了RLHF组织行为的机制。这一方法与传统的反向传播方法本质上不同,提供了新的分析视角。
关键设计:在实验中,FFN与跳过信号的比例被用来区分两种电路结构,并预测适当的干预方式。特定的神经元数量和干预策略被精心设计,以确保对模型行为的显著影响。具体参数设置和网络结构细节在实验中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在安全拒绝任务中,干预约50个神经元能够改变80%的响应格式,同时几乎没有产生有害合规行为。在语言选择任务中,特定干预使得模型在99.1%的情况下成功将输出从英语切换为中文,展示了干预的有效性和模型行为的可控性。
🎯 应用场景
该研究的潜在应用领域包括大语言模型的行为分析、模型优化和安全性评估。通过精确的模板层编辑,研究者可以在特定任务中提升模型的表现,减少有害输出,增强模型的可靠性和安全性。未来,该方法可能对模型的可解释性和可控性产生深远影响。
📄 摘要(原文)
Perturbation probing generates task-specific causal hypotheses for FFN neurons in large language models using two forward passes per prompt and no backpropagation, followed by a one-time intervention sweep of about 150 passes amortized across all identified neurons. Across eight behavioral circuits, 13 models, and four architecture families, we identify two circuit structures that organize LLM behavior. Opposition circuits appear when RLHF suppresses a pre-training tendency. In safety refusal, about 50 neurons, or 0.014 percent of all neurons, control the refusal template; ablating them changes 80 percent of response formats on 520 AdvBench prompts while producing near-zero harmful compliance, 3 of 520 cases, all with disclaimers. Routing circuits appear for pre-training behaviors distributed through attention. For language selection, residual-stream direction injection switches English to Chinese output on 99.1 percent of 580 benchmark prompts in the 3 of 19 tested models that satisfy three observed conditions: bilingual training, FFN-to-skip signal ratio between 0.3 and 1.1, and linear representability. The same intervention fails on the other 16 models and on math, code, and factual circuits, defining the limits of directional steering. The FFN-to-skip signal ratio, computed from the same two forward passes, distinguishes the two structures and predicts the appropriate intervention. Circuit topology varies by architecture, from Qwen's concentrated FFN bottleneck to Gemma's normalization-shielded circuit. In Qwen3.5-2B, ablating 20 neurons eliminates multi-turn sycophantic capitulation, while amplifying 10 related neurons improves factual correction from 52 percent to 88 percent on 200 TruthfulQA prompts. These results show that perturbation probing offers mechanistic insight into RLHF-organized behavior and a practical toolkit for precision template-layer editing.