Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks
作者: Hoagy Cunningham, Jerry Wei, Zihan Wang, Andrew Persic, Alwin Peng, Jordan Abderrachid, Raj Agarwal, Bobby Chen, Austin Cohen, Andy Dau, Alek Dimitriev, Rob Gilson, Logan Howard, Yijin Hua, Jared Kaplan, Jan Leike, Mu Lin, Christopher Liu, Vladimir Mikulik, Rohit Mittapalli, Clare O'Hara, Jin Pan, Nikhil Saxena, Alex Silverstein, Yue Song, Xunjie Yu, Giulio Zhou, Ethan Perez, Mrinank Sharma
分类: cs.CR, cs.AI
发布日期: 2026-01-08
💡 一句话要点
提出Constitutional Classifiers++,高效防御通用越狱攻击,降低计算成本和拒绝率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 安全防御 分类器级联 线性探针
📋 核心要点
- 现有防御系统在应对通用越狱攻击时,计算成本高昂,且容易出现过高的拒绝率,影响用户体验。
- Constitutional Classifiers++通过交换分类器、两阶段级联和线性探针集成,在对话上下文中高效识别并防御攻击。
- 实验表明,该系统在保持低拒绝率的同时,计算成本降低40倍,并有效防御了超过1700小时的红队攻击。
📝 摘要(中文)
本文介绍了一种增强型的Constitutional Classifiers,它以极低的计算成本和拒绝率,实现了生产级别的越狱攻击鲁棒性,优于上一代防御系统。该系统结合了几个关键的洞见。首先,我们开发了交换分类器,它在完整的对话上下文中评估模型响应,解决了上一代系统中孤立地检查输出的漏洞。其次,我们实现了一个两阶段分类器级联,其中轻量级分类器筛选所有流量,并将可疑的交换升级到更昂贵的分类器。第三,我们训练了高效的线性探针分类器,并将它们与外部分类器集成,以同时提高鲁棒性并降低计算成本。总而言之,这些技术产生了一个生产级别的系统,与我们的基线交换分类器相比,计算成本降低了40倍,同时在生产流量中保持了0.05%的拒绝率。通过超过1700小时的大量红队测试,我们展示了对通用越狱攻击的强大保护——没有针对该系统的攻击成功地引出对所有八个目标查询的响应,其细节可与未防御的模型相媲美。我们的工作将Constitutional Classifiers确立为大型语言模型的实用且高效的保障措施。
🔬 方法详解
问题定义:现有的大语言模型防御系统,特别是针对越狱攻击的防御,通常计算成本很高,并且容易出现过高的拒绝率,导致用户体验下降。上一代系统通常孤立地检查模型输出,忽略了对话上下文,这使得攻击者可以利用上下文信息来绕过防御。
核心思路:Constitutional Classifiers++的核心思路是通过结合多种技术,在保证防御效果的同时,显著降低计算成本和拒绝率。它利用对话上下文信息,采用多阶段分类器级联,并集成高效的线性探针分类器,从而实现高效且鲁棒的防御。
技术框架:Constitutional Classifiers++包含以下几个主要模块: 1. 交换分类器:评估模型响应的完整对话上下文。 2. 两阶段分类器级联:轻量级分类器初步筛选流量,可疑流量升级到更复杂的分类器。 3. 线性探针分类器集成:训练高效的线性探针分类器,并与外部分类器集成。
整体流程是,首先使用轻量级分类器对所有流量进行快速筛选,只有被判定为可疑的流量才会被送入更复杂的分类器进行进一步分析。最后,通过集成多个分类器的结果,做出最终的判断。
关键创新:该方法最重要的创新点在于其多层次、上下文感知的分类器设计。与以往孤立地分析模型输出的方法不同,Constitutional Classifiers++充分利用了对话上下文信息,从而能够更准确地识别和防御越狱攻击。此外,两阶段级联和线性探针分类器的集成,显著降低了计算成本,使其更适用于生产环境。
关键设计:具体的技术细节包括: 1. 交换分类器:使用Transformer模型对整个对话历史进行编码,从而捕捉上下文信息。 2. 两阶段级联:第一阶段使用轻量级的线性模型,第二阶段使用更复杂的Transformer模型。 3. 线性探针分类器:通过在预训练语言模型的隐藏层上训练线性分类器,提取特征并进行分类。 4. 损失函数:使用交叉熵损失函数训练分类器,并采用对抗训练方法提高鲁棒性。
📊 实验亮点
实验结果表明,Constitutional Classifiers++在生产环境中实现了40倍的计算成本降低,同时保持了0.05%的低拒绝率。通过超过1700小时的红队测试,该系统成功防御了各种通用越狱攻击,没有出现任何针对所有八个目标查询的成功攻击案例,证明了其强大的防御能力。
🎯 应用场景
Constitutional Classifiers++可广泛应用于各种需要安全保障的大型语言模型应用场景,例如聊天机器人、智能助手、内容生成平台等。它可以有效防止恶意用户利用越狱攻击绕过安全限制,从而保护用户和平台的安全,并提升用户体验。该研究为构建更安全、更可靠的大语言模型应用奠定了基础。
📄 摘要(原文)
We introduce enhanced Constitutional Classifiers that deliver production-grade jailbreak robustness with dramatically reduced computational costs and refusal rates compared to previous-generation defenses. Our system combines several key insights. First, we develop exchange classifiers that evaluate model responses in their full conversational context, which addresses vulnerabilities in last-generation systems that examine outputs in isolation. Second, we implement a two-stage classifier cascade where lightweight classifiers screen all traffic and escalate only suspicious exchanges to more expensive classifiers. Third, we train efficient linear probe classifiers and ensemble them with external classifiers to simultaneously improve robustness and reduce computational costs. Together, these techniques yield a production-grade system achieving a 40x computational cost reduction compared to our baseline exchange classifier, while maintaining a 0.05% refusal rate on production traffic. Through extensive red-teaming comprising over 1,700 hours, we demonstrate strong protection against universal jailbreaks -- no attack on this system successfully elicited responses to all eight target queries comparable in detail to an undefended model. Our work establishes Constitutional Classifiers as practical and efficient safeguards for large language models.