TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice
作者: Aman Goel, Xian Carrie Wu, Zhe Wang, Dmitriy Bespalov, Yanjun Qi
分类: cs.CR, cs.AI, cs.CL, cs.LG
发布日期: 2025-02-21 (更新: 2025-06-04)
备注: Oral presentation at NAACL 2025 industry track
🔗 代码/项目: GITHUB
💡 一句话要点
TurboFuzzLLM:加速基于突变的模糊测试,有效破解大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 模糊测试 对抗性提示 安全性评估
📋 核心要点
- 现有基于模板的攻击方法在实际应用中存在局限性,难以有效且高效地生成越狱提示。
- TurboFuzzLLM通过对现有模糊测试技术进行功能和效率上的升级,自动生成有效的越狱模板。
- 实验表明,TurboFuzzLLM在多个LLM上实现了高攻击成功率,并具有良好的泛化能力和防御提升效果。
📝 摘要(中文)
本文提出了一种基于突变的模糊测试技术TurboFuzzLLM,旨在高效地发现一系列有效的越狱模板。这些模板与有害问题结合使用时,可以通过用户提示以黑盒方式诱导目标LLM产生有害响应,从而测试LLM抵御对抗性提示的鲁棒性。论文描述了在实践中直接应用现有基于模板的攻击技术的局限性,并提出了以功能和效率为中心的升级,将其添加到基于突变的模糊测试中,以自动生成有效的越狱模板。TurboFuzzLLM在领先的LLM(包括GPT-4o和GPT-4 Turbo)的公共数据集上实现了≥95%的攻击成功率(ASR),对未见过的有害问题表现出令人印象深刻的泛化能力,并有助于改进模型对提示攻击的防御。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的越狱问题,即如何找到能够诱导LLM产生有害或不当回复的对抗性提示。现有基于模板的攻击方法在实际应用中存在局限性,例如需要人工设计模板、效率低下、泛化能力不足等。因此,需要一种能够自动、高效、且具有良好泛化能力的越狱方法。
核心思路:TurboFuzzLLM的核心思路是利用基于突变的模糊测试技术,通过不断地对初始模板进行随机变异,并评估变异后的模板的攻击效果,从而自动搜索有效的越狱模板。这种方法无需人工干预,能够探索更广阔的提示空间,并发现更有效的攻击模式。
技术框架:TurboFuzzLLM的整体框架包括以下几个主要模块:1) 种子模板生成:生成一组初始的提示模板作为模糊测试的起点。2) 突变算子:定义一系列突变算子,用于对现有模板进行随机变异,例如插入、删除、替换等。3) 评估函数:评估变异后的模板的攻击效果,例如通过判断LLM的回复是否包含有害内容。4) 选择策略:根据评估结果选择优秀的模板,用于下一轮的突变。5) 迭代优化:重复执行突变、评估和选择的过程,直到达到预定的停止条件。
关键创新:TurboFuzzLLM的关键创新在于对现有模糊测试技术进行了功能和效率上的升级,使其更适合于LLM的越狱任务。具体包括:1) 引入了更丰富的突变算子,例如基于语义的突变和基于语法的突变。2) 设计了更有效的评估函数,例如基于规则的评估和基于模型的评估。3) 采用了更智能的选择策略,例如基于遗传算法的选择和基于强化学习的选择。
关键设计:TurboFuzzLLM的关键设计包括:1) 突变算子的选择:根据LLM的特点选择合适的突变算子,例如对于代码LLM,可以引入代码相关的突变算子。2) 评估函数的阈值设置:根据实际情况设置评估函数的阈值,以平衡攻击成功率和攻击效率。3) 选择策略的参数调整:根据实验结果调整选择策略的参数,以优化模板的搜索过程。
🖼️ 关键图片
📊 实验亮点
TurboFuzzLLM在GPT-4o和GPT-4 Turbo等领先的LLM上实现了超过95%的攻击成功率(ASR),表明其在越狱LLM方面的有效性。此外,该方法对未见过的有害问题表现出良好的泛化能力,并且可以用于改进模型对提示攻击的防御,具有重要的实际意义。
🎯 应用场景
TurboFuzzLLM可用于评估和提高大型语言模型的安全性,帮助开发者发现模型中存在的漏洞,并采取相应的防御措施。此外,该技术还可以应用于对抗性提示生成、模型鲁棒性测试等领域,促进LLM的安全可靠发展。该研究的开源实现也为社区提供了有价值的工具。
📄 摘要(原文)
Jailbreaking large-language models (LLMs) involves testing their robustness against adversarial prompts and evaluating their ability to withstand prompt attacks that could elicit unauthorized or malicious responses. In this paper, we present TurboFuzzLLM, a mutation-based fuzzing technique for efficiently finding a collection of effective jailbreaking templates that, when combined with harmful questions, can lead a target LLM to produce harmful responses through black-box access via user prompts. We describe the limitations of directly applying existing template-based attacking techniques in practice, and present functional and efficiency-focused upgrades we added to mutation-based fuzzing to generate effective jailbreaking templates automatically. TurboFuzzLLM achieves $\geq$ 95\% attack success rates (ASR) on public datasets for leading LLMs (including GPT-4o \& GPT-4 Turbo), shows impressive generalizability to unseen harmful questions, and helps in improving model defenses to prompt attacks. TurboFuzzLLM is available open source at https://github.com/amazon-science/TurboFuzzLLM.