Detoxification for LLM: From Dataset Itself
作者: Wei Shao, Yihang Wang, Gaoyu Zhu, Ziqiang Cheng, Lei Yu, Jiafeng Guo, Xueqi Cheng
分类: cs.CL
发布日期: 2026-04-21
备注: Accepted to Main Conference of ACL 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出HSPD框架,通过数据清洗从源头减少LLM的毒性,提升模型安全性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据解毒 毒性检测 语义保留 对比学习
📋 核心要点
- 现有LLM解毒方法主要集中在模型训练后或推理阶段,忽略了训练数据本身可能存在的毒性。
- HSPD框架通过软对比解码(SoCD)引导LLM在原始数据中定位并重写毒性内容,同时保持语义完整性。
- 实验表明,HSPD在多个LLM上实现了最先进的解毒效果,显著降低了毒性概率和预期最大毒性。
📝 摘要(中文)
现有大型语言模型(LLM)的解毒方法主要集中在后训练阶段或推理时,很少有方法解决毒性的根源,即数据集本身。基于训练或可控解码的方法无法完全抑制模型固有的毒性,而对预训练数据集进行解毒可以从根本上减少模型在训练过程中学到的毒性。因此,我们尝试直接在原始语料库上进行解毒,使用软对比解码(SoCD)指导LLM定位和重写原始数据中的毒性跨度,同时保留语义,从而在提出的分层语义保留解毒(HSPD)流程中产生解毒语料库,该语料库可以替代原始语料库进行微调或其他训练。在GPT2-XL上,HSPD实现了最先进的解毒效果,将毒性概率(TP)从0.42降低到0.18,并将预期最大毒性(EMT)从0.43降低到0.20。我们进一步验证了LLaMA2-7B、OPT-6.7B和Falcon-7B上一致的最佳结果。这些发现表明,使用HSPD进行语义保留的语料库级重写可以有效地抑制下游毒性,同时保持数据效用,并允许无缝的源级缓解,从而降低了后期模型行为调整的成本。
🔬 方法详解
问题定义:现有LLM解毒方法主要集中在模型训练完成后或推理阶段的干预,无法从根本上解决模型学习到的毒性。原始训练数据中存在的毒性内容是模型产生有害输出的根源之一,因此需要一种方法来清洗训练数据,减少模型学习到毒性的可能性。
核心思路:论文的核心思路是从源头解决问题,即在预训练阶段对原始语料库进行解毒。通过引导LLM识别并重写原始数据中的毒性片段,同时尽可能保留原始数据的语义信息,从而生成一个更安全的训练数据集。这样可以减少模型在训练过程中接触到毒性内容,降低其产生有害输出的概率。
技术框架:HSPD (Hierarchical Semantic-Preserving Detoxification) 包含以下主要步骤:1. 毒性检测:使用预训练的毒性检测模型识别原始语料库中的潜在毒性片段。2. 软对比解码 (SoCD):使用LLM对检测到的毒性片段进行重写,目标是消除毒性,同时保持语义不变。SoCD通过对比原始片段和重写后的片段,鼓励LLM生成更安全的替代方案。3. 分层语义保留:采用分层语义保留策略,确保重写后的数据在不同语义层面上与原始数据保持一致,避免引入新的噪声或改变数据的原始含义。4. 数据集替换:将解毒后的语料库替换原始语料库,用于后续的模型训练或微调。
关键创新:该论文的关键创新在于提出了一个直接在原始语料库上进行解毒的框架。与以往主要关注模型训练后或推理时干预的方法不同,HSPD从源头上减少了模型学习到毒性的可能性。此外,SoCD的使用允许LLM在重写毒性片段时保持语义信息,避免了数据质量的下降。
关键设计:SoCD使用对比学习损失函数,鼓励LLM生成与原始片段语义相似但毒性更低的替代方案。具体来说,损失函数包括两部分:1. 毒性损失:惩罚重写后片段的毒性。2. 语义相似度损失:鼓励重写后片段与原始片段在语义空间中保持接近。分层语义保留策略可能涉及使用多个预训练模型或规则来评估重写后数据的语义完整性,例如使用句子嵌入模型计算语义相似度,或使用知识图谱验证实体关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HSPD在GPT2-XL、LLaMA2-7B、OPT-6.7B和Falcon-7B等多个LLM上均取得了显著的解毒效果。例如,在GPT2-XL上,HSPD将毒性概率(TP)从0.42降低到0.18,并将预期最大毒性(EMT)从0.43降低到0.20。这些结果表明,HSPD能够有效地减少模型产生的毒性输出,同时保持数据的可用性。
🎯 应用场景
该研究成果可广泛应用于各种需要使用大型语言模型的场景,例如聊天机器人、文本生成、内容审核等。通过对训练数据进行解毒,可以显著提高模型的安全性,减少有害信息的传播,从而构建更负责任和可靠的AI系统。该方法还可以用于清洗其他类型的文本数据,例如社交媒体帖子、新闻文章等,以减少网络空间的毒性内容。
📄 摘要(原文)
Existing detoxification methods for large language models mainly focus on post-training stage or inference time, while few tackle the source of toxicity, namely, the dataset itself. Such training-based or controllable decoding approaches cannot completely suppress the model's inherent toxicity, whereas detoxifying the pretraining dataset can fundamentally reduce the toxicity that the model learns during training. Hence, we attempt to detoxify directly on raw corpora with SoCD (Soft Contrastive Decoding), which guides an LLM to localize and rewrite toxic spans in raw data while preserving semantics, in our proposed HSPD (Hierarchical Semantic-Preserving Detoxification) pipeline, yielding a detoxified corpus that can drop-in replace the original for fine-tuning or other training. On GPT2-XL, HSPD attains state-of-the-art detoxification, reducing Toxicity Probability (TP) from 0.42 to 0.18 and Expected Maximum Toxicity (EMT) from 0.43 to 0.20. We further validate consistent best-in-class results on LLaMA2-7B, OPT-6.7B, and Falcon-7B. These findings show that semantics-preserving, corpus-level rewriting with HSPD effectively suppresses downstream toxicity while retaining data utility and allowing seamless source-level mitigation, thereby reducing the cost of later model behavior adjustment. (Code is available at: https://github.com/ntsw2001/data_detox_for_llm)