Where Does Toxicity Live? Mechanistic Localization and Targeted Suppression in Language Models

📄 arXiv: 2605.27997v1 📥 PDF

作者: Himanshu Beniwal, Mayank Singh

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-27


💡 一句话要点

提出Meow2X和TRNE框架,无需重训练即可定位并抑制语言模型中的毒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型安全 毒性抑制 机制可解释性 无需重训练 神经元定位

📋 核心要点

  1. 现有缓解语言模型毒性的方法依赖于高成本的重训练或输出过滤,缺乏对毒性内在来源的机制性理解。
  2. 论文提出Meow2X和TRNE框架,通过分析激活差异定位毒性神经元,并采用推理时缩放或权重编辑进行抑制。
  3. 实验表明,该方法在多个模型和基准测试中有效降低了毒性,同时保持了语言建模的质量。

📝 摘要(中文)

大型语言模型经常生成有毒、仇恨或有害的内容,但现有的缓解方法依赖于昂贵的重训练或输出级别的过滤,而没有对毒性在内部产生的机制性洞察。我们引入了Meow2X和TRNE,这两个互补的、无需重训练的框架,通过分析有毒提示和中性提示之间的激活差异,将毒性定位到特定的层和神经元,然后通过推理时的缩放或最小的秩一权重编辑来抑制它们——无需任何梯度下降。在五个语言模型、两个基准和90个配置上使用双重安全评估器的评估表明,在保持语言建模质量的同时,能够持续降低毒性。我们的分析表明,毒性不成比例地编码在早期的MLP层中,并且因架构而异,并且被单一评估器设置系统性地低估——强调了多评估器安全评估的必要性。通过将机制可解释性与实际解毒联系起来,我们的框架为更安全、更透明的语言模型提供了一条原则性的道路。

🔬 方法详解

问题定义:现有大型语言模型容易生成有毒内容,但现有缓解方法,如重训练和输出过滤,成本高昂且缺乏对毒性内在来源的理解。因此,需要一种无需重训练,且能定位并抑制毒性的方法。

核心思路:该论文的核心思路是通过分析有毒提示和中性提示在语言模型内部激活的差异,来定位负责产生毒性的特定层和神经元。然后,通过在推理时调整这些神经元的激活强度或修改其权重,来抑制毒性的产生。这种方法旨在直接干预毒性产生的源头,而不是简单地过滤输出。

技术框架:该框架包含两个主要模块:Meow2X和TRNE。Meow2X通过分析激活差异来定位毒性神经元。TRNE则利用定位到的神经元信息,通过两种方式抑制毒性:一是推理时缩放(inference-time scaling),即降低毒性神经元的激活强度;二是最小秩一权重编辑(minimal rank-one weight edits),即对毒性神经元的权重进行微小的调整。整个过程无需梯度下降,因此不需要重新训练模型。

关键创新:该论文的关键创新在于提出了一种无需重训练,即可定位并抑制语言模型毒性的方法。与传统的重训练或输出过滤方法相比,该方法更加高效且具有更好的可解释性。此外,该方法通过分析激活差异,能够深入了解毒性在模型内部的产生机制。

关键设计:Meow2X的关键设计在于如何有效地分析有毒提示和中性提示之间的激活差异,以准确地定位毒性神经元。TRNE的关键设计在于如何选择合适的缩放因子或权重编辑量,以在抑制毒性的同时,尽可能地保持语言模型的性能。论文还强调了使用多个安全评估器进行评估的重要性,以避免单一评估器可能存在的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Meow2X和TRNE框架在五个不同的语言模型、两个基准测试和90个配置中,都能够有效地降低毒性,同时保持语言建模的质量。研究还发现,毒性主要编码在早期MLP层中,并且不同架构的模型毒性分布存在差异。此外,单一评估器往往会低估模型的毒性水平,因此需要使用多个评估器进行综合评估。

🎯 应用场景

该研究成果可应用于各种需要使用大型语言模型的场景,例如聊天机器人、内容生成平台和在线社区管理。通过降低语言模型产生有毒内容的风险,可以提高用户体验,减少社会危害,并促进人工智能技术的健康发展。该方法还可用于分析和理解语言模型中的其他不良行为,例如生成虚假信息或偏见内容。

📄 摘要(原文)

Large language models frequently generate toxic, hateful, or harmful content, yet existing mitigation methods rely on costly retraining or output-level filtering with no mechanistic insight into where toxicity originates internally. We introduce Meow2X and TRNE, two complementary retraining-free frameworks that localize toxicity to specific layers and neurons by analyzing activation differentials between toxic and neutral prompts, then suppress them via inference-time scaling or minimal rank-one weight edits -- without any gradient descent. Evaluations across five LMs, two benchmarks, and 90 configurations using dual safety evaluators demonstrate consistent toxicity reduction while preserving language modeling quality. Our analysis reveals that toxicity is disproportionately encoded in early MLP layers, varies across architectures, and is systematically underestimated by single-evaluator setups -- underscoring the need for multi-evaluator safety assessment. By bridging mechanistic interpretability with practical detoxification, our framework offers a principled path toward safer, more transparent language models.