Improving Alignment and Robustness with Circuit Breakers
作者: Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin, Maksym Andriushchenko, Rowan Wang, Zico Kolter, Matt Fredrikson, Dan Hendrycks
分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.CY
发布日期: 2024-06-06 (更新: 2024-07-12)
备注: Code and models are available at https://github.com/GraySwanAI/circuit-breakers
💡 一句话要点
提出基于“断路器”的AI安全机制,提升对有害行为和对抗攻击的防御能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI安全 对抗攻击 表征工程 断路器机制 多模态模型
📋 核心要点
- 现有AI对齐方法(如拒绝训练)易被绕过,对抗训练难以应对未知攻击,缺乏通用性。
- 提出“断路器”机制,直接干预模型内部表征,阻止有害输出,无需重新训练或针对特定攻击。
- 实验表明,该方法能有效防御文本和多模态模型的有害输出,并降低AI代理的有害行为。
📝 摘要(中文)
人工智能系统可能产生有害行为,并且极易受到对抗攻击。本文提出了一种受表征工程最新进展启发的方案,通过“断路器”中断模型,阻止其产生有害输出。现有的对齐技术,如拒绝训练,经常被绕过。对抗训练等技术试图通过对抗特定攻击来填补这些漏洞。作为拒绝训练和对抗训练的替代方案,断路器直接控制导致有害输出的表征。我们的技术可以应用于纯文本和多模态语言模型,以防止有害输出的生成,同时不牺牲效用——即使在强大的未知攻击存在的情况下也是如此。值得注意的是,虽然独立图像识别中的对抗鲁棒性仍然是一个开放的挑战,但断路器允许更大的多模态系统可靠地抵御旨在产生有害内容的图像“劫持”。最后,我们将我们的方法扩展到AI代理,证明在受到攻击时,有害行为的发生率显著降低。我们的方法代表了在开发针对有害行为和对抗攻击的可靠保障措施方面的重要一步。
🔬 方法详解
问题定义:论文旨在解决AI系统(特别是语言模型和多模态模型)容易产生有害输出,并且容易受到对抗攻击的问题。现有方法,如拒绝训练和对抗训练,存在局限性:拒绝训练容易被绕过,对抗训练需要针对特定攻击进行训练,泛化能力较差。这些方法无法从根本上解决模型内部表征与有害行为之间的关联。
核心思路:论文的核心思路是引入“断路器”机制,直接干预模型内部的表征,阻止导致有害输出的神经元激活。通过识别并抑制与有害行为相关的表征,可以在不牺牲模型整体效用的前提下,有效防止有害输出的生成。这种方法类似于电路中的断路器,当检测到异常电流时,会立即切断电路,防止设备损坏。
技术框架:整体框架包含以下几个主要步骤:1) 表征识别:使用因果干预等技术,识别模型中与有害行为相关的表征。2) 断路器训练:训练一个断路器模型,用于检测这些有害表征的激活。3) 推理阶段:在推理阶段,当断路器检测到有害表征的激活时,会立即抑制这些表征,从而阻止有害输出的生成。
关键创新:最重要的技术创新点在于直接控制模型内部表征,而不是像传统方法那样,通过修改输入或输出进行防御。这种方法更加直接有效,并且具有更好的泛化能力,可以防御未知的对抗攻击。与现有方法的本质区别在于,断路器机制关注的是模型内部的因果关系,而不是仅仅依赖于输入输出之间的相关性。
关键设计:断路器的训练通常采用监督学习方法,使用包含有害和无害样本的数据集。损失函数的设计需要平衡两个目标:1) 准确检测有害表征的激活;2) 尽可能减少对模型正常功能的干扰。关键参数包括断路器的阈值,用于判断是否需要激活断路器,以及抑制强度,用于控制对有害表征的抑制程度。网络结构方面,断路器通常采用轻量级的神经网络,以减少计算开销。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在文本和多模态模型上均取得了显著的防御效果。例如,在图像“劫持”攻击中,断路器能够有效阻止模型生成有害内容,即使在对抗攻击强度很高的情况下,也能保持较高的防御成功率。此外,在AI代理实验中,断路器显著降低了有害行为的发生率,提升了AI代理的安全性。
🎯 应用场景
该研究成果可广泛应用于各种AI安全领域,例如:防止聊天机器人生成仇恨言论或虚假信息;保护自动驾驶系统免受对抗攻击;确保AI代理在复杂环境中采取安全可靠的行动。该技术有助于构建更安全、更可靠、更值得信赖的人工智能系统,具有重要的社会价值和应用前景。
📄 摘要(原文)
AI systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that interrupts the models as they respond with harmful outputs with "circuit breakers." Existing techniques aimed at improving alignment, such as refusal training, are often bypassed. Techniques such as adversarial training try to plug these holes by countering specific attacks. As an alternative to refusal training and adversarial training, circuit-breaking directly controls the representations that are responsible for harmful outputs in the first place. Our technique can be applied to both text-only and multimodal language models to prevent the generation of harmful outputs without sacrificing utility -- even in the presence of powerful unseen attacks. Notably, while adversarial robustness in standalone image recognition remains an open challenge, circuit breakers allow the larger multimodal system to reliably withstand image "hijacks" that aim to produce harmful content. Finally, we extend our approach to AI agents, demonstrating considerable reductions in the rate of harmful actions when they are under attack. Our approach represents a significant step forward in the development of reliable safeguards to harmful behavior and adversarial attacks.