CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning
作者: Rahul Markasserithodi, Aditya Joshi, Yuekang Li, Ishmanbir Singh, Chris Yoo, Alan Niu
分类: cs.CL
发布日期: 2026-06-04
备注: Under Review at ARR
💡 一句话要点
提出CHASE框架以提升大型语言模型的安全性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对抗训练 安全对齐 强化学习 大型语言模型 黑盒攻击 红蓝团队 策略优化
📋 核心要点
- 现有的安全对齐方法在面对提示重写攻击时表现脆弱,无法有效防御自适应黑盒攻击者。
- 本文提出CHASE框架,通过黑盒攻击者与安全防御者的共同进化,提升大型语言模型的安全性。
- 实验结果显示,CHASE显著降低了攻击成功率,同时保持了良性提示的高通过率。
📝 摘要(中文)
尽管在安全对齐方面取得了进展,提示重写攻击仍能绕过安全过滤器。现有防御措施依赖于人力策划或针对特定模型内部的白盒优化,导致模型在面对自适应黑盒攻击者时脆弱。为此,本文提出CHASE(通过对抗安全升级的共同进化强化),一个闭环的红蓝团队框架,其中黑盒攻击者与安全对齐的防御者共同进化。攻击者通过群体相对策略优化(GRPO)进行训练,奖励机制同时考虑绕过效果和意图保真度,而防御者则通过两阶段的GRPO与拒绝采样的SFT管道进行强化。实验结果表明,CHASE在BeaverTails和JailbreakBench上对五个攻击家族的评估中,平均StrongREJECT分数降低了43.2%,且在良性提示上无误拒绝。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在面对提示重写攻击时的脆弱性,现有方法依赖于人力策划或特定模型的白盒优化,导致防御效果不佳。
核心思路:CHASE框架通过红蓝团队的共同进化,利用黑盒攻击者训练出有效的攻击策略,同时增强防御者的安全性,以应对多样化的攻击方式。
技术框架:CHASE的整体架构包括两个主要模块:黑盒攻击者和安全防御者。攻击者通过群体相对策略优化(GRPO)进行训练,防御者则通过两阶段的GRPO与拒绝采样的SFT管道进行强化。
关键创新:CHASE的创新在于其闭环的红蓝团队机制,使得攻击者与防御者能够在训练过程中相互适应,提升了防御的有效性和适应性。
关键设计:在训练过程中,攻击者的奖励机制综合考虑了绕过效果和意图保真度,防御者则通过结合良性数据与对抗重写数据进行强化学习,确保在不同攻击场景下的鲁棒性。
🖼️ 关键图片
📊 实验亮点
CHASE在BeaverTails和JailbreakBench的实验中,平均StrongREJECT分数降低了43.2%,且在良性提示上实现了0%的误拒绝,显示出其在防御能力上的显著提升。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的安全性提升,尤其是在敏感信息处理和自动化内容生成等场景。通过增强模型的抗攻击能力,可以提高其在实际应用中的可靠性和安全性,未来可能对AI系统的广泛部署产生积极影响。
📄 摘要(原文)
Despite advances in safety alignment, prompt-rewriting attacks such as persona modulation, fictional framing and persuasion-based reformulation, can bypass safety filters even on frontier models. Existing defenses either rely on non-scalable human curation or white-box optimisation that overfits to specific model internals, leaving aligned models brittle against the very class of adaptive black-box adversaries they will face in deployment. To address this gap, we introduce CHASE (Co-evolutionary Hardening through Adversarial Safety-Escalation), a closed-loop red-blue teaming framework in which a black-box attacker and a safety-aligned defender co-evolve. The attacker is trained via Group Relative Policy Optimization (GRPO) under a multiplicative reward that jointly enforces bypass effectiveness and intent fidelity, while the defender is hardened on the harvested adversarial rewrites through a two-stage GRPO + rejection-sampled SFT pipeline balanced with benign data. Evaluated on BeaverTails and JailbreakBench against five held-out attack families (PAIR, TAP, AutoDAN, PAP, Translation), CHASE cuts mean StrongREJECT score by 43.2\% with 0\% false-refusal on benign prompts. Beyond the headline result, CHASE shows that template-free RL exploration recovers latent attack primitives that transfer across mechanistically distinct attack families, suggesting a path toward LLM safety hardening that generalises beyond the narrow distributions achieved thus far in adversarial training.