SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models

📄 arXiv: 2508.15648v2 📥 PDF

作者: Peng Ding, Wen Sun, Dailin Li, Wei Zou, Jiaming Wang, Jiajun Chen, Shujian Huang

分类: cs.CL

发布日期: 2025-08-21 (更新: 2025-08-26)

备注: Accepted by EMNLP 2025 (Main Conference), 15 pages, 4 figures, 6 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出SDGO,利用自判别引导优化提升大语言模型安全性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全性 越狱攻击 强化学习 自判别引导优化

📋 核心要点

  1. 现有大语言模型在生成内容时,难以有效防御越狱攻击,安全性存在明显不足。
  2. SDGO利用模型自身判别能力作为奖励信号,通过强化学习迭代优化,提升生成内容的安全性。
  3. 实验表明,SDGO在提升模型安全性的同时,保持了在通用基准测试上的性能,且对分布外攻击具有鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)在各种自然语言处理任务中表现出色,但仍然容易受到诱导生成有害内容的越狱攻击。本文揭示了一个关键的安全不一致性:LLMs作为判别器时,能更有效地识别有害请求,但作为生成器时,防御这些请求的能力较弱。受此启发,我们探索对齐模型固有的判别和生成能力。为此,我们提出了SDGO(自判别引导优化),这是一个强化学习框架,利用模型自身的判别能力作为奖励信号,通过迭代自提升来增强生成安全性。我们的方法在训练阶段不需要任何额外的标注数据或外部模型。大量实验表明,与基于提示和基于训练的基线相比,SDGO显著提高了模型安全性,同时保持了在通用基准测试上的有用性。通过对齐LLMs的判别和生成能力,SDGO带来了针对分布外(OOD)越狱攻击的强大性能。这种对齐实现了这两种能力之间更紧密的耦合,使得模型的生成能力仅需少量判别样本即可进一步增强。我们的代码和数据集可在https://github.com/NJUNLP/SDGO 获得。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)容易受到越狱攻击,从而生成有害内容的问题。现有方法,如基于提示工程或微调的方法,在防御此类攻击时效果有限,并且往往需要大量标注数据。此外,LLMs自身作为判别器时,识别有害请求的能力强于作为生成器时防御有害请求的能力,这种能力不一致是现有方法的痛点。

核心思路:论文的核心思路是利用LLM自身强大的判别能力来引导其生成过程,从而提高生成内容的安全性。具体来说,就是将LLM识别有害请求的能力转化为奖励信号,通过强化学习的方式,迭代优化LLM的生成策略,使其更不容易生成有害内容。这种方法的核心在于对齐LLM的判别和生成能力。

技术框架:SDGO框架主要包含以下几个阶段:1) 提示工程:构建初始提示,用于引导LLM生成内容。2) 内容生成:LLM根据提示生成内容。3) 自判别:LLM自身作为判别器,判断生成内容是否安全。4) 奖励计算:根据自判别结果计算奖励信号。5) 策略优化:使用强化学习算法(如PPO)根据奖励信号优化LLM的生成策略。整个过程迭代进行,不断提升LLM的安全性。

关键创新:SDGO的关键创新在于利用LLM自身的判别能力作为奖励信号,无需额外标注数据或外部模型,即可实现对生成安全性的提升。这种自判别引导的优化方式,能够更有效地对齐LLM的判别和生成能力,从而提高其防御越狱攻击的能力。此外,SDGO还实现了判别能力和生成能力的紧密耦合,使得少量判别样本即可显著提升生成能力。

关键设计:SDGO的关键设计包括:1) 奖励函数的设计:奖励函数需要能够准确反映生成内容的安全性,并能够有效引导LLM的生成策略。论文中可能采用了基于分类置信度的奖励函数。2) 强化学习算法的选择:论文采用了PPO算法,该算法能够稳定地优化LLM的生成策略。3) 迭代优化策略:论文采用了迭代优化的策略,通过多次迭代,逐步提升LLM的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SDGO在多个安全基准测试上显著优于现有方法,包括基于提示工程和基于训练的基线方法。SDGO在提升模型安全性的同时,保持了在通用基准测试上的性能。更重要的是,SDGO对分布外(OOD)越狱攻击表现出更强的鲁棒性,证明了其对齐判别和生成能力的有效性。

🎯 应用场景

SDGO具有广泛的应用前景,可用于提升各种LLM的安全性,降低其生成有害内容的风险。该技术可应用于智能客服、内容生成、代码生成等领域,提高LLM在实际应用中的可靠性和安全性。此外,SDGO的自判别引导优化思想,也可推广到其他AI模型的安全性提升中。

📄 摘要(原文)

Large Language Models (LLMs) excel at various natural language processing tasks but remain vulnerable to jailbreaking attacks that induce harmful content generation. In this paper, we reveal a critical safety inconsistency: LLMs can more effectively identify harmful requests as discriminators than defend against them as generators. This insight inspires us to explore aligning the model's inherent discrimination and generation capabilities. To this end, we propose SDGO (Self-Discrimination-Guided Optimization), a reinforcement learning framework that leverages the model's own discrimination capabilities as a reward signal to enhance generation safety through iterative self-improvement. Our method does not require any additional annotated data or external models during the training phase. Extensive experiments demonstrate that SDGO significantly improves model safety compared to both prompt-based and training-based baselines while maintaining helpfulness on general benchmarks. By aligning LLMs' discrimination and generation capabilities, SDGO brings robust performance against out-of-distribution (OOD) jailbreaking attacks. This alignment achieves tighter coupling between these two capabilities, enabling the model's generation capability to be further enhanced with only a small amount of discriminative samples. Our code and datasets are available at https://github.com/NJUNLP/SDGO.