Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning
作者: Zhaoqi Wang, Daqing He, Zijian Zhang, Xin Li, Liehuang Zhu, Meng Li, Jiamou Liu
分类: cs.AI, cs.CR
发布日期: 2025-09-28
💡 一句话要点
提出PASS框架,利用强化学习和形式化描述提升LLM提示越狱攻击的隐蔽性和有效性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 提示越狱 大型语言模型 强化学习 形式化方法 对抗性攻击
📋 核心要点
- 大型语言模型面临提示越狱攻击的威胁,现有防御方法难以有效应对精心设计的对抗性提示。
- PASS框架利用强化学习将越狱提示转化为形式化描述,增强隐蔽性,并结合GraphRAG系统提升攻击效果。
- 实验表明,PASS框架在常见的开源模型上能够有效进行提示越狱攻击,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLMs)展现了卓越的能力,但也带来了新的安全挑战。例如,提示越狱攻击涉及攻击者精心设计提示,诱使LLMs产生偏离人类价值观的响应。为了揭示LLM对齐方法中的漏洞,我们提出了PASS框架(通过语义和结构形式化进行提示越狱)。具体而言,PASS采用强化学习将初始越狱提示转换为形式化描述,从而增强隐蔽性并绕过现有的对齐防御。然后,越狱输出被构建成一个GraphRAG系统,该系统通过利用提取的相关术语和形式化符号作为上下文输入以及原始查询,来加强后续攻击并促进更有效的越狱。我们在常见的开源模型上进行了广泛的实验,证明了我们攻击的有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)的提示越狱问题,即如何有效地构造对抗性提示,绕过LLMs的安全对齐机制,使其产生不符合人类价值观或有害的输出。现有方法通常依赖于人工设计的提示或简单的变异,难以保证隐蔽性和攻击成功率。
核心思路:论文的核心思路是利用强化学习自动生成形式化的越狱提示,并通过GraphRAG系统增强攻击效果。形式化描述能够提高提示的隐蔽性,使其更难被检测和防御。强化学习能够探索更广泛的提示空间,找到更有效的攻击策略。GraphRAG系统则通过提取相关术语和形式化符号,为后续攻击提供上下文信息,提升攻击的成功率。
技术框架:PASS框架包含两个主要模块:1) 基于强化学习的提示形式化模块:该模块使用强化学习算法,将初始越狱提示转化为形式化描述。强化学习的目标是最大化越狱成功率,同时最小化提示的明显程度。2) 基于GraphRAG的攻击增强模块:该模块将越狱输出构建成一个GraphRAG系统,提取相关术语和形式化符号,作为上下文信息与原始查询一起输入到LLM中,以增强后续攻击的效果。
关键创新:PASS框架的关键创新在于:1) 提出了基于强化学习的形式化提示生成方法,能够自动生成隐蔽且有效的越狱提示。2) 引入了GraphRAG系统,利用上下文信息增强攻击效果。与现有方法相比,PASS框架能够更有效地绕过LLMs的安全对齐机制,实现更成功的提示越狱攻击。
关键设计:在强化学习模块中,使用了Proximal Policy Optimization (PPO)算法作为强化学习算法。奖励函数的设计至关重要,需要平衡越狱成功率和提示的明显程度。GraphRAG系统使用图神经网络提取相关术语和形式化符号,并将其作为上下文信息输入到LLM中。具体参数设置和网络结构在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PASS框架在多个开源LLM模型上实现了显著的提示越狱攻击效果。与现有基线方法相比,PASS框架能够更有效地绕过模型的安全对齐机制,成功率提升了XX%。此外,实验还验证了形式化描述和GraphRAG系统在提升攻击效果方面的作用。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性,帮助开发者发现和修复模型中的漏洞,提高模型对对抗性攻击的鲁棒性。此外,该研究还可以用于构建更安全的LLM应用,防止恶意用户利用提示越狱攻击获取不当信息或进行有害行为。未来,该研究可以扩展到其他类型的对抗性攻击,例如对抗性样本攻击。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable capabilities, yet they also introduce novel security challenges. For instance, prompt jailbreaking attacks involve adversaries crafting sophisticated prompts to elicit responses from LLMs that deviate from human values. To uncover vulnerabilities in LLM alignment methods, we propose the PASS framework (\underline{P}rompt J\underline{a}ilbreaking via \underline{S}emantic and \underline{S}tructural Formalization). Specifically, PASS employs reinforcement learning to transform initial jailbreak prompts into formalized descriptions, which enhances stealthiness and enables bypassing existing alignment defenses. The jailbreak outputs are then structured into a GraphRAG system that, by leveraging extracted relevant terms and formalized symbols as contextual input alongside the original query, strengthens subsequent attacks and facilitates more effective jailbreaks. We conducted extensive experiments on common open-source models, demonstrating the effectiveness of our attack.