CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

作者: Rahul Markasserithodi, Aditya Joshi, Yuekang Li, Ishmanbir Singh, Chris Yoo, Alan Niu

分类: cs.CL

发布日期: 2026-06-04

备注: Under Review at ARR

💡 一句话要点

提出CHASE框架以提升大型语言模型的安全性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 对抗训练 安全对齐 强化学习 大型语言模型 黑盒攻击 红蓝团队 策略优化

📋 核心要点

现有的安全对齐方法在面对提示重写攻击时表现脆弱，无法有效防御自适应黑盒攻击者。
本文提出CHASE框架，通过黑盒攻击者与安全防御者的共同进化，提升大型语言模型的安全性。
实验结果显示，CHASE显著降低了攻击成功率，同时保持了良性提示的高通过率。

📝 摘要（中文）

尽管在安全对齐方面取得了进展，提示重写攻击仍能绕过安全过滤器。现有防御措施依赖于人力策划或针对特定模型内部的白盒优化，导致模型在面对自适应黑盒攻击者时脆弱。为此，本文提出CHASE（通过对抗安全升级的共同进化强化），一个闭环的红蓝团队框架，其中黑盒攻击者与安全对齐的防御者共同进化。攻击者通过群体相对策略优化（GRPO）进行训练，奖励机制同时考虑绕过效果和意图保真度，而防御者则通过两阶段的GRPO与拒绝采样的SFT管道进行强化。实验结果表明，CHASE在BeaverTails和JailbreakBench上对五个攻击家族的评估中，平均StrongREJECT分数降低了43.2%，且在良性提示上无误拒绝。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在面对提示重写攻击时的脆弱性，现有方法依赖于人力策划或特定模型的白盒优化，导致防御效果不佳。

核心思路：CHASE框架通过红蓝团队的共同进化，利用黑盒攻击者训练出有效的攻击策略，同时增强防御者的安全性，以应对多样化的攻击方式。

技术框架：CHASE的整体架构包括两个主要模块：黑盒攻击者和安全防御者。攻击者通过群体相对策略优化（GRPO）进行训练，防御者则通过两阶段的GRPO与拒绝采样的SFT管道进行强化。

关键创新：CHASE的创新在于其闭环的红蓝团队机制，使得攻击者与防御者能够在训练过程中相互适应，提升了防御的有效性和适应性。

关键设计：在训练过程中，攻击者的奖励机制综合考虑了绕过效果和意图保真度，防御者则通过结合良性数据与对抗重写数据进行强化学习，确保在不同攻击场景下的鲁棒性。

🖼️ 关键图片

📊 实验亮点

CHASE在BeaverTails和JailbreakBench的实验中，平均StrongREJECT分数降低了43.2%，且在良性提示上实现了0%的误拒绝，显示出其在防御能力上的显著提升。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的安全性提升，尤其是在敏感信息处理和自动化内容生成等场景。通过增强模型的抗攻击能力，可以提高其在实际应用中的可靠性和安全性，未来可能对AI系统的广泛部署产生积极影响。

📄 摘要（原文）

Despite advances in safety alignment, prompt-rewriting attacks such as persona modulation, fictional framing and persuasion-based reformulation, can bypass safety filters even on frontier models. Existing defenses either rely on non-scalable human curation or white-box optimisation that overfits to specific model internals, leaving aligned models brittle against the very class of adaptive black-box adversaries they will face in deployment. To address this gap, we introduce CHASE (Co-evolutionary Hardening through Adversarial Safety-Escalation), a closed-loop red-blue teaming framework in which a black-box attacker and a safety-aligned defender co-evolve. The attacker is trained via Group Relative Policy Optimization (GRPO) under a multiplicative reward that jointly enforces bypass effectiveness and intent fidelity, while the defender is hardened on the harvested adversarial rewrites through a two-stage GRPO + rejection-sampled SFT pipeline balanced with benign data. Evaluated on BeaverTails and JailbreakBench against five held-out attack families (PAIR, TAP, AutoDAN, PAP, Translation), CHASE cuts mean StrongREJECT score by 43.2\% with 0\% false-refusal on benign prompts. Beyond the headline result, CHASE shows that template-free RL exploration recovers latent attack primitives that transfer across mechanistically distinct attack families, suggesting a path toward LLM safety hardening that generalises beyond the narrow distributions achieved thus far in adversarial training.

CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理