Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation

📄 arXiv: 2509.16660v1 📥 PDF

作者: Zuhair Hasan Shaik, Abdullah Mazhar, Aseem Srivastava, Md Shad Akhtar

分类: cs.CL

发布日期: 2025-09-20

备注: Accepted to the NeurIPS 2025 Research Track


💡 一句话要点

提出EigenShift方法,通过语言模型分解实现可解释的毒性内容抑制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 毒性缓解 可解释性 特征分解 EigenShift 自然语言处理 人工智能安全

📋 核心要点

  1. 现有毒性缓解方法依赖神经元激活操作,但存在不稳定性、上下文依赖性等问题,并可能损害模型语言能力。
  2. 提出EigenShift方法,通过特征分解选择性地抑制语言模型中与毒性生成相关的组件,无需额外训练。
  3. 实验表明,EigenShift方法能在抑制毒性的同时,保持语言模型的语言能力,且计算成本低。

📝 摘要(中文)

大型语言模型在各种任务中表现出令人印象深刻的流畅性,但其产生有害内容的倾向仍然是人工智能安全和公众信任面临的关键挑战。现有的毒性缓解方法主要操纵单个神经元的激活,但这些方法存在不稳定性、上下文依赖性,并且常常损害模型的核心语言能力。为了解决这些缺点,我们研究了三个关键问题:神经元级别毒性指标的稳定性、结构化(层级)表示的优势以及驱动毒性生成的机制的可解释性。通过对Jigsaw和ToxiCN数据集进行的大量实验,我们表明聚合的层级特征比单个神经元提供更稳健的信号。此外,我们观察到先前工作在基于神经元的干预中混淆了毒性检测专家和生成专家的概念性局限性。为了缓解这个问题,我们提出了一种新的基于原则的干预技术EigenShift,该技术基于语言模型最终输出层的特征分解。该方法选择性地针对生成对齐的组件,从而实现精确的毒性抑制,而不会损害语言能力。我们的方法不需要额外的训练或微调,只需极少的计算成本,并且基于严格的理论分析。

🔬 方法详解

问题定义:现有方法主要通过操纵单个神经元的激活来缓解语言模型中的毒性内容生成,但这些方法存在不稳定性,对上下文的依赖性强,并且容易损害模型原有的语言能力。此外,现有方法常常混淆了毒性检测专家和毒性生成专家,导致干预效果不佳。

核心思路:论文的核心思路是通过对语言模型的输出层进行特征分解,识别并选择性地抑制与毒性生成相关的特征向量(eigenvectors)。这种方法旨在精确地抑制毒性,同时保留模型原有的语言能力。通过分解,可以区分负责生成毒性内容和负责语言表达的组件,从而实现更精细的控制。

技术框架:EigenShift方法主要包含以下几个阶段: 1. 特征分解:对语言模型的最终输出层进行特征分解(eigen-decomposition),得到特征值和特征向量。 2. 毒性对齐判断:通过某种指标(例如,与毒性词汇的关联性)来判断每个特征向量与毒性生成的对齐程度。 3. 选择性抑制:选择与毒性生成高度对齐的特征向量,并对其进行抑制或调整,从而降低模型生成毒性内容的概率。 4. 输出生成:使用调整后的输出层生成文本。

关键创新:该方法最重要的创新点在于其基于特征分解的毒性抑制策略。与以往直接操纵神经元激活的方法不同,EigenShift方法通过分解输出层,能够更精确地定位和抑制与毒性生成相关的组件,从而在抑制毒性的同时,更好地保留模型的语言能力。此外,该方法无需额外的训练或微调,降低了实施成本。

关键设计: 1. 特征分解方法:论文采用标准的特征分解方法,例如奇异值分解(SVD)或特征值分解(EVD)。 2. 毒性对齐指标:论文需要设计一个指标来衡量每个特征向量与毒性生成的对齐程度。这可能涉及到计算特征向量与毒性词汇的余弦相似度,或者使用一个预训练的毒性检测模型来评估每个特征向量对毒性预测的影响。 3. 抑制策略:论文需要设计一种策略来抑制与毒性生成相关的特征向量。这可能涉及到将这些特征向量的权重设置为零,或者对其进行微调以降低其与毒性词汇的关联性。

📊 实验亮点

论文通过在Jigsaw和ToxiCN数据集上的实验表明,EigenShift方法能够在有效抑制毒性内容生成的同时,保持语言模型的语言能力。该方法无需额外的训练或微调,且计算成本低,具有很强的实用性。实验结果表明,该方法在毒性抑制方面优于现有的神经元级别干预方法。

🎯 应用场景

该研究成果可应用于各种自然语言生成系统,特别是那些需要生成安全、无害内容的应用场景,如聊天机器人、内容创作平台、在线社区管理等。通过降低语言模型生成毒性内容的概率,可以提升用户体验,增强公众对人工智能技术的信任,并减少潜在的法律和伦理风险。

📄 摘要(原文)

Large Language Models have demonstrated impressive fluency across diverse tasks, yet their tendency to produce toxic content remains a critical challenge for AI safety and public trust. Existing toxicity mitigation approaches primarily manipulate individual neuron activations, but these methods suffer from instability, context dependence, and often compromise the model's core language abilities. To address these shortcomings, we investigate three key questions: the stability of neuron-level toxicity indicators, the advantages of structural (layer-wise) representations, and the interpretability of mechanisms driving toxic generation. Through extensive experiments on Jigsaw and ToxiCN datasets, we show that aggregated layer-wise features provide more robust signals than single neurons. Moreover, we observe conceptual limitations in prior works that conflate toxicity detection experts and generation experts within neuron-based interventions. To mitigate this, we propose a novel principled intervention technique, EigenShift, based on eigen-decomposition of the language model's final output layer. This method selectively targets generation-aligned components, enabling precise toxicity suppression without impairing linguistic competence. Our method requires no additional training or fine-tuning, incurs minimal computational cost, and is grounded in rigorous theoretical analysis.