Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

📄 arXiv: 2501.18837v1 📥 PDF

作者: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez

分类: cs.CL, cs.AI, cs.CR, cs.LG

发布日期: 2025-01-31


💡 一句话要点

提出宪法分类器防御通用越狱攻击,在数千小时对抗测试中表现出色

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全防御 通用越狱攻击 宪法分类器 对抗测试

📋 核心要点

  1. 大型语言模型易受通用越狱攻击,绕过安全措施造成潜在危害。
  2. 提出宪法分类器,利用自然语言规则训练,区分允许和限制内容。
  3. 实验表明,该分类器能有效防御越狱攻击,且部署开销可控。

📝 摘要(中文)

大型语言模型(LLMs)容易受到通用越狱攻击的影响,这些攻击策略系统性地绕过模型的安全措施,并允许用户执行需要多次模型交互的有害操作,例如大规模制造非法物质。为了防御这些攻击,我们引入了宪法分类器:一种基于合成数据训练的安全措施,该数据通过使用自然语言规则(即宪法)提示LLM生成,这些规则指定了允许和限制的内容。在超过3000小时的对抗测试中,没有对抗团队发现一种通用越狱方法,可以在大多数目标查询中,从早期受分类器保护的LLM中提取与未受保护模型类似详细程度的信息。在自动评估中,增强的分类器展示了对保留的特定领域越狱的强大防御能力。这些分类器也保持了部署可行性,生产流量拒绝率绝对增加了0.38%,推理开销增加了23.7%。我们的工作表明,在保持实际部署可行性的同时,防御通用越狱攻击是可行的。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)容易受到通用越狱攻击的问题。现有的LLM安全措施容易被绕过,导致模型被用于执行有害任务,例如生成非法内容或提供危险指导。现有的防御方法往往不够鲁棒,无法有效应对各种攻击策略,并且可能引入过高的计算开销,影响模型的可用性。

核心思路:论文的核心思路是引入“宪法分类器”,该分类器基于一套自然语言规则(宪法)进行训练,用于判断LLM的输出是否符合安全规范。通过让LLM学习并遵守这些规则,可以有效地限制其行为,防止其被用于执行有害任务。这种方法的核心在于利用LLM自身的能力来生成训练数据,从而提高分类器的泛化能力和鲁棒性。

技术框架:整体框架包含以下几个主要阶段:1) 宪法定义:定义一套自然语言规则,明确允许和限制的内容。2) 数据生成:使用LLM根据宪法生成合成训练数据,包括符合规则的安全输出和违反规则的有害输出。3) 分类器训练:使用生成的数据训练宪法分类器,使其能够区分安全和有害的LLM输出。4) 集成部署:将宪法分类器集成到LLM的部署流程中,对LLM的输出进行过滤,阻止有害内容的输出。

关键创新:最重要的技术创新点在于利用LLM自身生成训练数据,避免了人工标注的成本和偏差。与传统的基于规则或人工标注的分类器相比,宪法分类器能够更好地适应LLM的复杂行为,并具有更强的泛化能力。此外,该方法通过自然语言规则来约束LLM的行为,更易于理解和维护。

关键设计:宪法的具体内容是关键设计之一,需要仔细设计以覆盖各种潜在的有害行为。数据生成过程中的提示工程也很重要,需要确保生成的数据具有足够的代表性和多样性。分类器的选择和训练策略也需要根据具体的应用场景进行调整。论文中提到,生产流量拒绝率绝对增加了0.38%,推理开销增加了23.7%,这些指标需要在实际部署中进行监控和优化。

📊 实验亮点

在超过3000小时的对抗测试中,没有发现能够绕过宪法分类器并提取详细信息的通用越狱攻击。在自动评估中,增强的分类器对特定领域的越狱攻击表现出强大的防御能力。同时,该分类器保持了部署可行性,生产流量拒绝率仅增加0.38%,推理开销增加23.7%。

🎯 应用场景

该研究成果可广泛应用于各种需要安全保障的大型语言模型应用场景,例如智能客服、内容生成、教育辅导等。通过部署宪法分类器,可以有效防止LLM被用于生成有害内容,提高用户信任度,降低法律风险。未来,该技术还可以扩展到其他类型的AI系统,提高整体的安全性。

📄 摘要(原文)

Large language models (LLMs) are vulnerable to universal jailbreaks-prompting strategies that systematically bypass model safeguards and enable users to carry out harmful processes that require many model interactions, like manufacturing illegal substances at scale. To defend against these attacks, we introduce Constitutional Classifiers: safeguards trained on synthetic data, generated by prompting LLMs with natural language rules (i.e., a constitution) specifying permitted and restricted content. In over 3,000 estimated hours of red teaming, no red teamer found a universal jailbreak that could extract information from an early classifier-guarded LLM at a similar level of detail to an unguarded model across most target queries. On automated evaluations, enhanced classifiers demonstrated robust defense against held-out domain-specific jailbreaks. These classifiers also maintain deployment viability, with an absolute 0.38% increase in production-traffic refusals and a 23.7% inference overhead. Our work demonstrates that defending against universal jailbreaks while maintaining practical deployment viability is tractable.