Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing

📄 arXiv: 2505.22298v1 📥 PDF

作者: Yifan Lu, Jing Li, Yigeng Zhou, Yihui Zhang, Wenya Wang, Xiucheng Li, Meishan Zhang, Fangming Liu, Jun Yu, Min Zhang

分类: cs.CL

发布日期: 2025-05-28

备注: ACL 2025 Findings


💡 一句话要点

ToxEdit:通过毒性感知知识编辑保障LLM的通用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识编辑 毒性检测 自适应路由 安全性 对抗攻击 过度编辑

📋 核心要点

  1. 现有LLM解毒方法依赖实体定位,对无实体对抗输入无效,且易过度编辑,损害模型通用能力。
  2. ToxEdit通过动态检测毒性激活模式,并自适应调整层间计算路径,实现精准解毒,保留LLM通用能力。
  3. 实验表明,ToxEdit在解毒性能和保障LLM通用能力方面优于现有方法,并在增强的SafeEdit基准上进行了评估。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的语言能力,但仍然容易受到恶意提示和越狱攻击的影响。现有的LLM解毒知识编辑方法面临两个主要挑战。首先,它们通常依赖于实体特定的定位,使其对没有明确实体的对抗性输入无效。其次,这些方法存在过度编辑的问题,导致解毒后的模型拒绝合法的查询,从而损害整体性能。本文提出了ToxEdit,一种毒性感知的知识编辑方法,它在正向传播过程中动态检测毒性激活模式。然后,它通过自适应的层间路径路由计算,以有效地减轻毒性。这种设计确保了精确的毒性缓解,同时保留了LLM的通用能力。为了更准确地评估过度编辑,我们还通过纳入指令跟随评估任务来增强SafeEdit基准。在多个LLM上的实验结果表明,我们的ToxEdit在解毒性能和保障LLM的通用能力方面均优于先前的最先进方法。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)容易受到恶意提示和越狱攻击,产生有害或不适当的内容。现有的知识编辑方法试图通过修改模型参数来消除这些毒性行为,但它们通常依赖于识别与特定实体相关的知识,这使得它们在面对不包含明确实体的对抗性输入时失效。此外,这些方法还容易出现“过度编辑”的问题,即为了消除毒性,模型会拒绝一些合法的、无害的查询,从而损害其通用能力。

核心思路:ToxEdit的核心思路是在模型推理过程中动态地检测和缓解毒性激活。它不依赖于预先定义的实体或知识,而是直接关注模型内部的激活模式。通过识别与毒性相关的激活,并自适应地调整模型的计算路径,ToxEdit可以在不损害模型通用能力的前提下,有效地消除毒性。

技术框架:ToxEdit的技术框架主要包含两个关键模块:毒性激活检测模块和自适应层间路由模块。毒性激活检测模块负责在模型的每一层检测是否存在与毒性相关的激活模式。这可以通过训练一个二元分类器来实现,该分类器以模型的激活向量作为输入,并预测该激活是否具有毒性。自适应层间路由模块则根据毒性激活检测的结果,动态地调整模型的计算路径。如果检测到毒性激活,则将计算路由到专门设计的“解毒”路径,该路径旨在抑制毒性激活并生成更安全的内容。如果没有检测到毒性激活,则保持正常的计算路径。

关键创新:ToxEdit的关键创新在于其动态性和自适应性。与传统的知识编辑方法不同,ToxEdit不是静态地修改模型参数,而是在推理过程中动态地检测和缓解毒性。此外,ToxEdit的自适应层间路由机制可以根据输入的不同,灵活地调整模型的计算路径,从而在消除毒性的同时,最大限度地保留模型的通用能力。

关键设计:毒性激活检测模块使用一个轻量级的二元分类器,该分类器以模型的激活向量作为输入,并预测该激活是否具有毒性。该分类器可以使用标准的监督学习方法进行训练,例如逻辑回归或支持向量机。自适应层间路由模块使用一个门控机制来控制计算路径的选择。该门控机制根据毒性激活检测的结果,输出一个介于0和1之间的值,该值表示将计算路由到解毒路径的程度。该门控机制可以使用一个简单的神经网络来实现,例如一个单层感知器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ToxEdit在多个LLM上均取得了显著的解毒效果,同时有效地保留了模型的通用能力。具体而言,ToxEdit在解毒性能方面优于现有的最先进方法,并且在SafeEdit基准测试中,其指令跟随能力得到了显著提升,表明其过度编辑问题得到了有效缓解。

🎯 应用场景

ToxEdit可应用于各种需要保障LLM安全性的场景,例如智能客服、内容生成、教育辅助等。通过集成ToxEdit,可以有效降低LLM生成有害或不当内容的风险,提升用户体验,并促进LLM在更广泛领域的应用。此外,该研究也为其他LLM安全技术的发展提供了新的思路。

📄 摘要(原文)

Large language models (LLMs) exhibit impressive language capabilities but remain vulnerable to malicious prompts and jailbreaking attacks. Existing knowledge editing methods for LLM detoxification face two major challenges. First, they often rely on entity-specific localization, making them ineffective against adversarial inputs without explicit entities. Second, these methods suffer from over-editing, where detoxified models reject legitimate queries, compromising overall performance. In this paper, we propose ToxEdit, a toxicity-aware knowledge editing approach that dynamically detects toxic activation patterns during forward propagation. It then routes computations through adaptive inter-layer pathways to mitigate toxicity effectively. This design ensures precise toxicity mitigation while preserving LLMs' general capabilities. To more accurately assess over-editing, we also enhance the SafeEdit benchmark by incorporating instruction-following evaluation tasks. Experimental results on multiple LLMs demonstrate that our ToxEdit outperforms previous state-of-the-art methods in both detoxification performance and safeguarding general capabilities of LLMs.