Learning diverse attacks on large language models for robust red-teaming and safety tuning
作者: Seanie Lee, Minsu Kim, Lynn Cherif, David Dobre, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi, Gauthier Gidel, Yoshua Bengio, Nikolay Malkin, Moksh Jain
分类: cs.CL, cs.CR, cs.LG
发布日期: 2024-05-28 (更新: 2025-02-28)
备注: ICLR 2025
💡 一句话要点
提出基于GFlowNet的大语言模型多样性攻击方法,提升红队测试和安全调优效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 红队测试 安全调优 GFlowNet 多样性攻击
📋 核心要点
- 现有红队测试方法在生成多样化攻击提示时存在模式崩溃或攻击效果不佳的问题。
- 论文提出使用GFlowNet微调攻击者模型,并结合平滑阶段,以生成更多样化和有效的攻击提示。
- 实验表明,该方法生成的攻击在不同目标LLM上有效,且安全调整后的模型对其他攻击更鲁棒。
📝 摘要(中文)
红队测试,即识别能够引发有害响应的提示,是确保大型语言模型(LLM)安全可靠部署的关键步骤。针对多种攻击模式开发有效的防御措施需要发现多样化的攻击方式。自动红队测试通常使用强化学习来微调攻击者语言模型,以生成能够从目标LLM中引出不良响应的提示,例如通过辅助毒性分类器进行衡量。我们发现,即使采用显式正则化来促进新颖性和多样性,现有方法仍然存在模式崩溃或无法生成有效攻击的问题。作为一种灵活且具有概率原则的替代方案,我们提出使用GFlowNet微调,然后进行二次平滑阶段,以训练攻击者模型生成多样化且有效的攻击提示。我们发现,我们的方法生成的攻击对各种目标LLM(无论是否经过安全调整)都有效,并且在目标LLM之间具有良好的迁移性。最后,我们证明了使用我们的方法生成的红队测试提示数据集进行安全调整的模型,对于来自其他基于RL的红队测试方法的攻击具有鲁棒性。
🔬 方法详解
问题定义:论文旨在解决现有自动红队测试方法在生成多样化攻击提示时遇到的困难。现有方法,即使使用了显式的正则化来鼓励新颖性和多样性,仍然容易出现模式崩溃,或者无法生成有效的攻击,从而限制了红队测试的覆盖范围和有效性。
核心思路:论文的核心思路是利用GFlowNet的特性来训练攻击者模型,使其能够探索更多样化的提示空间。GFlowNet是一种概率生成模型,它通过学习一个奖励函数来生成样本,同时鼓励探索不同的状态。通过将GFlowNet应用于攻击提示的生成,可以避免模式崩溃,并生成更多样化的攻击。
技术框架:该方法主要包含两个阶段:GFlowNet微调和二次平滑。首先,使用GFlowNet微调攻击者语言模型,使其能够生成能够引发目标LLM不良响应的提示。GFlowNet的目标是最大化生成有效攻击提示的概率,同时鼓励探索不同的提示。然后,进行二次平滑阶段,进一步提高生成提示的多样性。
关键创新:该方法的关键创新在于使用GFlowNet来训练攻击者模型。与传统的强化学习方法相比,GFlowNet能够更好地探索提示空间,并生成更多样化的攻击。此外,二次平滑阶段进一步提高了生成提示的多样性。
关键设计:GFlowNet的奖励函数设计至关重要,它需要能够准确地衡量攻击提示的有效性,同时鼓励探索不同的提示。论文中使用了毒性分类器来衡量攻击提示的有效性,并使用正则化项来鼓励探索不同的提示。二次平滑阶段的具体实现方式未知,论文中没有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法生成的攻击对各种目标LLM(无论是否经过安全调整)都有效,并且在目标LLM之间具有良好的迁移性。此外,使用该方法生成的红队测试提示数据集进行安全调整的模型,对于来自其他基于RL的红队测试方法的攻击具有更强的鲁棒性。具体的性能数据未知,论文中没有给出详细的数值结果。
🎯 应用场景
该研究成果可应用于提升大型语言模型的安全性,通过生成多样化的攻击提示,帮助开发者发现模型潜在的漏洞和安全风险。生成的红队测试数据集可用于安全调优,提高模型对恶意攻击的鲁棒性。该方法还可用于评估不同安全策略的有效性,指导模型安全部署。
📄 摘要(原文)
Red-teaming, or identifying prompts that elicit harmful responses, is a critical step in ensuring the safe and responsible deployment of large language models (LLMs). Developing effective protection against many modes of attack prompts requires discovering diverse attacks. Automated red-teaming typically uses reinforcement learning to fine-tune an attacker language model to generate prompts that elicit undesirable responses from a target LLM, as measured, for example, by an auxiliary toxicity classifier. We show that even with explicit regularization to favor novelty and diversity, existing approaches suffer from mode collapse or fail to generate effective attacks. As a flexible and probabilistically principled alternative, we propose to use GFlowNet fine-tuning, followed by a secondary smoothing phase, to train the attacker model to generate diverse and effective attack prompts. We find that the attacks generated by our method are effective against a wide range of target LLMs, both with and without safety tuning, and transfer well between target LLMs. Finally, we demonstrate that models safety-tuned using a dataset of red-teaming prompts generated by our method are robust to attacks from other RL-based red-teaming approaches.