SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

📄 arXiv: 2605.18719v1 📥 PDF

作者: Komal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar

分类: cs.CV

发布日期: 2026-05-18

备注: Page 28, Image 20, Table 6

🔗 代码/项目: GITHUB


💡 一句话要点

SafeDiffusion-R1:提出在线奖励引导的安全扩散模型后训练方法,无需监督数据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 安全生成 在线强化学习 CLIP嵌入 奖励引导

📋 核心要点

  1. 现有安全扩散模型依赖昂贵的配对监督数据或离线强化学习,面临数据稀缺和灾难性遗忘问题。
  2. SafeDiffusion-R1提出在线强化学习框架,利用CLIP嵌入的引导奖励机制,无需微调安全/不安全奖励模型。
  3. 实验表明,该方法显著降低不安全内容和裸露检测,同时提升组合生成质量,并泛化到领域外不安全提示。

📝 摘要(中文)

扩散模型已被广泛研究用于移除预训练过程中学习到的不安全内容。现有方法需要昂贵的监督数据,例如不安全文本与安全图像的配对或负/正图像对,这使得它们难以扩展。此外,离线强化学习和监督微调方法会生成离线合成数据,遭受灾难性遗忘,降低生成质量。我们提出了一种新颖的在线强化学习框架,通过在负面和正面文本提示上使用组相对策略优化(GRPO)进行后训练,解决了数据稀缺和模型退化问题。为了消除微调专门的安全/不安全奖励模型的需要,我们引入了一种引导奖励机制,该机制利用CLIP嵌入的固有属性:在嵌入空间中将文本表示引导到正向安全方向并远离负向安全方向。我们的在线策略方法使模型能够从包括显式不安全内容在内的各种提示中学习,而不会发生灾难性遗忘。大量实验表明,我们的方法将不适当内容减少到18.07%(SD v1.4为48.9%),并将裸露检测减少到15(基线为646),同时将GenEval上的组合生成质量从42.08%提高到47.83%。值得注意的是,这些安全增益推广到跨七个危害类别的领域外不安全提示,在没有监督配对数据或奖励调整的情况下实现了最先进的性能。

🔬 方法详解

问题定义:现有扩散模型在生成图像时可能产生不安全内容,例如暴力、色情等。现有的安全扩散模型训练方法通常依赖于大量的配对监督数据(例如,不安全文本和对应的安全图像),或者使用离线强化学习方法。这些方法存在数据获取成本高昂、模型容易发生灾难性遗忘等问题,限制了其应用范围和效果。

核心思路:SafeDiffusion-R1的核心思路是利用在线强化学习,在模型训练过程中直接与环境交互,并根据环境反馈动态调整策略。同时,为了避免对安全/不安全奖励模型进行微调,该方法巧妙地利用了CLIP嵌入空间的特性,通过引导文本表示向安全方向移动,从而实现对生成内容的安全性控制。

技术框架:SafeDiffusion-R1的整体框架包括以下几个主要部分:1) 扩散模型:使用预训练的扩散模型作为生成图像的基础模型。2) 文本编码器:使用CLIP的文本编码器将文本提示转换为嵌入向量。3) 引导奖励机制:基于CLIP嵌入空间,定义一个奖励函数,用于衡量生成图像的安全性。该奖励函数通过计算文本嵌入向量与安全方向向量之间的距离来评估安全性。4) 在线强化学习:使用组相对策略优化(GRPO)算法,根据奖励函数的反馈,在线调整扩散模型的生成策略。

关键创新:SafeDiffusion-R1的关键创新在于:1) 提出了一种无需监督配对数据的在线强化学习框架,降低了数据获取成本。2) 引入了基于CLIP嵌入空间的引导奖励机制,避免了对安全/不安全奖励模型的微调,简化了训练流程。3) 通过在线学习,模型能够从各种提示中学习,避免了灾难性遗忘问题。

关键设计:在引导奖励机制中,关键的设计包括:1) 安全方向向量的选取:通过分析CLIP嵌入空间中安全和不安全文本的分布,确定安全方向向量。2) 奖励函数的定义:奖励函数的设计需要平衡生成图像的安全性和质量,避免过度惩罚导致生成图像质量下降。3) GRPO算法的参数设置:需要仔细调整GRPO算法的学习率、折扣因子等参数,以保证训练的稳定性和收敛性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SafeDiffusion-R1在实验中表现出色,将不适当内容减少到18.07%(SD v1.4为48.9%),裸露检测减少到15(基线为646),同时将GenEval上的组合生成质量从42.08%提高到47.83%。该方法在没有监督配对数据或奖励调整的情况下,实现了最先进的性能,并泛化到领域外不安全提示。

🎯 应用场景

SafeDiffusion-R1可应用于各种图像生成场景,例如内容创作平台、社交媒体、搜索引擎等。通过该方法,可以有效过滤掉不安全内容,保护用户免受不良信息的侵害。此外,该方法还可以用于生成符合特定安全标准的图像,例如儿童友好的内容。

📄 摘要(原文)

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinforcement learning and supervised fine-tuning approaches that generate synthetic data offline suffer from catastrophic forgetting, degrading generation quality. We propose a novel online reinforcement learning framework that addresses both data scarcity and model degradation through post-training with Group Relative Policy Optimization (GRPO) on both negative and positive text prompts. To eliminate the need for fine-tuning specialized safe/unsafe reward models, we introduce a \textit{steering reward mechanism} that exploits an inherent property of CLIP embeddings: steering text representations toward positive safety directions and away from negative ones in the embedding space. Our online-policy approach enables the model to learn from diverse prompts, including explicit unsafe content, without catastrophic forgetting. Extensive experiments demonstrate that our method reduces inappropriate content to 18.07\% (vs. 48.9\% for SD v1.4) and nudity detections to 15 (vs. 646 baseline) while improving compositional generation quality from 42.08\% to 47.83\% on GenEval. Remarkably, these safety gains generalize to out-of-domain unsafe prompts across seven harm categories, achieving state-of-the-art performance without supervised paired data or reward tuning. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.