Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation

📄 arXiv: 2509.16660v1 📥 PDF

作者: Zuhair Hasan Shaik, Abdullah Mazhar, Aseem Srivastava, Md Shad Akhtar

分类: cs.CL

发布日期: 2025-09-20

备注: Accepted to the NeurIPS 2025 Research Track


💡 一句话要点

提出EigenShift方法,通过语言模型分解实现可解释的毒性内容抑制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 毒性缓解 可解释性 特征分解 EigenShift

📋 核心要点

  1. 现有毒性缓解方法不稳定且依赖上下文,还会损害语言模型的核心能力。
  2. 提出EigenShift方法,基于特征分解选择性地抑制语言模型中的毒性生成成分。
  3. 实验表明,EigenShift无需额外训练,计算成本低,且能有效抑制毒性,同时保持语言能力。

📝 摘要(中文)

大型语言模型在各种任务中表现出令人印象深刻的流畅性,但其产生有害内容的倾向仍然是人工智能安全和公众信任面临的关键挑战。现有的毒性缓解方法主要操作单个神经元的激活,但这些方法存在不稳定性、上下文依赖性,并且常常损害模型的核心语言能力。为了解决这些缺点,我们研究了三个关键问题:神经元级别毒性指标的稳定性、结构化(层级)表示的优势以及驱动毒性生成的机制的可解释性。通过对Jigsaw和ToxiCN数据集进行的大量实验,我们表明聚合的层级特征比单个神经元提供更稳健的信号。此外,我们观察到先前工作在基于神经元的干预中混淆了毒性检测专家和生成专家的概念性局限性。为了缓解这个问题,我们提出了一种新的基于原则的干预技术EigenShift,该技术基于语言模型最终输出层的特征分解。该方法选择性地针对生成对齐的组件,从而实现精确的毒性抑制,而不会损害语言能力。我们的方法不需要额外的训练或微调,只需极少的计算成本,并且基于严格的理论分析。

🔬 方法详解

问题定义:现有方法主要通过操纵单个神经元的激活来缓解语言模型中的毒性内容,但这些方法存在不稳定性、上下文依赖性,并且常常损害模型的核心语言能力。此外,现有方法混淆了毒性检测专家和生成专家,导致干预效果不佳。

核心思路:论文的核心思路是通过特征分解,将语言模型的输出层分解为不同的成分,然后选择性地抑制与毒性生成相关的成分,从而在不损害语言能力的前提下,降低毒性内容的生成。这种方法避免了直接操作单个神经元,从而提高了稳定性和鲁棒性。

技术框架:EigenShift方法主要包含以下步骤:1) 对语言模型的最终输出层进行特征分解(例如,奇异值分解或特征值分解)。2) 识别与毒性生成相关的特征向量。这可以通过分析特征向量与毒性词汇的相关性来实现。3) 通过调整或移除这些特征向量,来抑制毒性生成。4) 将修改后的特征向量重构回输出层,从而得到经过毒性缓解的语言模型。

关键创新:该方法最重要的创新点在于,它将毒性缓解问题转化为一个特征选择和调整的问题,而不是一个神经元操作的问题。通过特征分解,可以更精确地定位和抑制毒性生成成分,从而避免了对模型整体语言能力的损害。此外,该方法不需要额外的训练或微调,降低了计算成本。

关键设计:EigenShift方法的关键设计包括:1) 使用特征值分解(或奇异值分解)来分解语言模型的输出层。2) 设计一种指标来衡量特征向量与毒性词汇的相关性,从而识别与毒性生成相关的特征向量。3) 设计一种策略来调整或移除这些特征向量,例如,将特征向量的权重设置为零,或者使用一个小的负权重来抑制毒性生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EigenShift方法在Jigsaw和ToxiCN数据集上均取得了显著的毒性抑制效果,同时保持了良好的语言能力。该方法无需额外的训练或微调,计算成本低,且优于现有的基于神经元操作的毒性缓解方法。具体性能数据(例如毒性降低百分比和语言流畅度指标)在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于各种需要生成文本的场景,例如聊天机器人、内容生成平台和在线论坛等。通过降低语言模型生成毒性内容的可能性,可以提高用户体验,增强公众对人工智能的信任,并促进人工智能技术的健康发展。该方法无需额外训练,易于部署,具有广泛的应用前景。

📄 摘要(原文)

Large Language Models have demonstrated impressive fluency across diverse tasks, yet their tendency to produce toxic content remains a critical challenge for AI safety and public trust. Existing toxicity mitigation approaches primarily manipulate individual neuron activations, but these methods suffer from instability, context dependence, and often compromise the model's core language abilities. To address these shortcomings, we investigate three key questions: the stability of neuron-level toxicity indicators, the advantages of structural (layer-wise) representations, and the interpretability of mechanisms driving toxic generation. Through extensive experiments on Jigsaw and ToxiCN datasets, we show that aggregated layer-wise features provide more robust signals than single neurons. Moreover, we observe conceptual limitations in prior works that conflate toxicity detection experts and generation experts within neuron-based interventions. To mitigate this, we propose a novel principled intervention technique, EigenShift, based on eigen-decomposition of the language model's final output layer. This method selectively targets generation-aligned components, enabling precise toxicity suppression without impairing linguistic competence. Our method requires no additional training or fine-tuning, incurs minimal computational cost, and is grounded in rigorous theoretical analysis.