Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF
作者: Yuan Fang, Yiming Luo, Aimin Zhou, Fei Tan
分类: cs.CL, cs.AI
发布日期: 2026-04-20
备注: Accepted to Findings of ACL 2026. 10 pages, 6 figures. Code and data available at https://github.com/ZeroLoss-Lab/R-CAI
💡 一句话要点
提出R-CAI框架,通过概率钳制的RLAIF实现可控的有害数据生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗性数据生成 红队测试 大型语言模型安全 强化学习 AI反馈 概率钳制 反向宪法AI
📋 核心要点
- 现有方法在系统性合成高质量有害数据方面存在不足,阻碍了对LLM安全性的充分评估。
- R-CAI通过反转宪法并利用批判-修正流程,实现了自动、可控的对抗性数据生成,无需人工标注。
- 实验表明,R-CAI生成的有害数据质量高且多样,概率钳制技术显著提升了语义连贯性。
📝 摘要(中文)
为了确保大型语言模型(LLMs)的安全性,需要强大的红队测试,但系统性地合成高质量的有害数据仍未得到充分探索。我们提出了反向宪法AI(R-CAI),这是一个用于自动和可控的对抗性数据生成的框架,超越了孤立的越狱提示。通过将无害的宪法反转为有害的宪法,并通过批判-修正管道迭代地改进模型输出,R-CAI能够无需人工标注即可扩展地合成多维对抗性数据。然而,仅优化与毒性相关的奖励可能导致奖励黑客和语义连贯性下降。为了解决这个问题,我们在来自AI反馈的强化学习中引入了概率钳制,这稳定了对抗性优化,同时保留了对抗意图。实验表明,R-CAI生成了多样、高质量的有害数据,并且概率钳制在不牺牲对抗强度的前提下,显着提高了语义连贯性(15%)。总的来说,R-CAI提供了一个完全自动化的框架,用于红队数据生成和对齐语言模型的系统安全评估。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)安全评估中,缺乏系统性、高质量有害数据生成方法的问题。现有方法,如人工构造的jailbreak提示,难以覆盖各种潜在的攻击场景,且成本高昂。因此,需要一种自动化的方法来生成多样且具有对抗性的数据,以充分评估LLMs的安全性。
核心思路:论文的核心思路是“反向宪法AI”(R-CAI)。它通过将原本用于约束模型行为的“宪法”进行反转,使其鼓励生成有害内容。然后,利用强化学习从AI反馈(RLAIF)来迭代优化生成的数据,使其在毒性方面达到预期目标。为了避免奖励黑客和语义连贯性下降,引入了概率钳制技术。
技术框架:R-CAI框架包含以下主要模块:1) 反向宪法生成:将无害的宪法规则转化为鼓励有害行为的规则。2) 数据生成:使用LLM根据反向宪法生成初始数据。3) 批判-修正循环:使用另一个LLM(批判者)评估生成数据的毒性,并根据评估结果指导原始LLM(生成器)进行修正,以提高毒性。4) RLAIF优化:使用RLAIF来优化生成器的策略,使其能够生成更具对抗性的数据。5) 概率钳制:在RLAIF过程中,对生成器输出的概率分布进行钳制,以稳定训练并提高语义连贯性。
关键创新:R-CAI的关键创新在于:1) 反向宪法:通过反转宪法规则,实现了对有害数据生成方向的有效控制。2) 概率钳制:通过限制生成器输出的概率分布,解决了RLAIF中常见的奖励黑客和语义连贯性问题。3) 全自动化流程:R-CAI实现了有害数据生成的全自动化,无需人工标注,大大提高了效率。
关键设计:在RLAIF中,奖励函数主要基于生成数据的毒性评分。概率钳制通过限制生成器输出概率分布的变化幅度来实现,具体实现方式未知,可能涉及对KL散度的约束或其他概率分布的限制。具体的网络结构和参数设置在论文中可能有所描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,R-CAI能够生成多样且高质量的有害数据。引入概率钳制后,语义连贯性提高了15%,同时保持了对抗强度。这表明概率钳制能够有效解决奖励黑客问题,并提高生成数据的质量。
🎯 应用场景
R-CAI可用于大规模生成对抗性数据,从而对LLMs进行更全面的安全评估和红队测试。这有助于发现模型潜在的漏洞和弱点,并为开发更安全的LLMs提供数据支持。此外,该框架还可用于研究不同类型的有害数据对模型的影响,从而更好地理解LLMs的风险。
📄 摘要(原文)
Ensuring the safety of large language models (LLMs) requires robust red teaming, yet the systematic synthesis of high-quality toxic data remains under-explored. We propose Reverse Constitutional AI (R-CAI), a framework for automated and controllable adversarial data generation that moves beyond isolated jailbreak prompts. By inverting a harmless constitution into a constitution of toxicity and iteratively refining model outputs through a critique--revision pipeline, R-CAI enables scalable synthesis of multi-dimensional adversarial data without human annotation. Optimizing solely for toxicity-related rewards, however, can lead to reward hacking and degraded semantic coherence. To address this challenge, we introduce probability clamping within reinforcement learning from AI feedback, which stabilizes adversarial optimization while preserving adversarial intent. Experiments demonstrate that R-CAI generates diverse, high-quality toxic data and that probability clamping substantially improves semantic coherence (15%) without sacrificing adversarial strength. Overall, R-CAI provides a fully automated framework for red teaming data generation and systematic safety evaluation of aligned language models.