Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning

📄 arXiv: 2509.23558v1 📥 PDF

作者: Zhaoqi Wang, Daqing He, Zijian Zhang, Xin Li, Liehuang Zhu, Meng Li, Jiamou Liu

分类: cs.AI, cs.CR

发布日期: 2025-09-28


💡 一句话要点

提出PASS框架,利用强化学习和形式化描述提升LLM提示越狱攻击的隐蔽性和有效性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示越狱 大型语言模型 强化学习 形式化方法 安全对齐

📋 核心要点

  1. 大型语言模型存在安全漏洞,攻击者可以通过构造恶意提示(即提示越狱)来绕过安全对齐机制,诱导模型产生有害输出。
  2. PASS框架利用强化学习将初始越狱提示转化为形式化描述,增强了攻击的隐蔽性,使其能够有效绕过现有的防御机制。
  3. 实验结果表明,PASS框架在常见的开源模型上能够成功进行提示越狱攻击,验证了该方法的有效性。

📝 摘要(中文)

大型语言模型(LLMs)展现了卓越的能力,但也带来了新的安全挑战。例如,提示越狱攻击涉及攻击者精心设计提示,诱使LLMs产生偏离人类价值观的响应。为了揭示LLM对齐方法的漏洞,我们提出了PASS框架(通过语义和结构形式化进行提示越狱)。具体而言,PASS采用强化学习将初始越狱提示转换为形式化描述,从而增强隐蔽性并绕过现有的对齐防御。然后,越狱输出被构建成一个GraphRAG系统,该系统通过利用提取的相关术语和形式化符号作为上下文输入以及原始查询,来加强后续攻击并促进更有效的越狱。我们在常见的开源模型上进行了广泛的实验,证明了我们攻击的有效性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)中存在的提示越狱漏洞问题。现有的LLM对齐方法存在不足,容易被精心设计的恶意提示绕过,导致模型产生不符合人类价值观的输出。现有的攻击方法往往缺乏隐蔽性,容易被检测和防御。

核心思路:论文的核心思路是通过将初始的越狱提示转换为形式化的描述,从而增强攻击的隐蔽性。形式化描述能够抽象出提示的本质特征,同时隐藏原始提示中的敏感信息,使得攻击更难被检测。此外,论文还利用强化学习自动生成有效的形式化提示,提高攻击的成功率。

技术框架:PASS框架包含两个主要模块:形式化提示生成模块和GraphRAG攻击模块。形式化提示生成模块使用强化学习算法,将初始提示转换为形式化的描述。GraphRAG攻击模块则利用生成的形式化描述,结合原始查询和相关术语,构建上下文信息,从而加强后续的攻击。整个流程首先是利用强化学习生成形式化提示,然后将形式化提示和原始查询输入到GraphRAG系统中,最终得到越狱输出。

关键创新:PASS框架的关键创新在于引入了形式化描述来增强提示越狱攻击的隐蔽性。与直接使用原始提示进行攻击的方法相比,PASS框架能够更好地隐藏攻击意图,从而绕过现有的防御机制。此外,利用强化学习自动生成形式化提示也提高了攻击的效率和成功率。

关键设计:在形式化提示生成模块中,使用了强化学习算法,具体采用的算法类型未知。GraphRAG系统利用提取的相关术语和形式化符号作为上下文输入,具体提取方法和符号表示方式未知。损失函数的设计目标是最大化越狱攻击的成功率,同时最小化被检测的概率。具体的参数设置和网络结构在论文中没有详细描述。

📊 实验亮点

论文在常见的开源模型上进行了实验,证明了PASS框架的有效性。具体的性能数据和对比基线未知,但摘要中明确指出PASS框架能够成功进行提示越狱攻击,并优于现有的攻击方法。实验结果表明,形式化描述能够有效增强攻击的隐蔽性,并提高攻击的成功率。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性。通过PASS框架,可以发现LLM对齐方法中的潜在漏洞,并为开发更有效的防御机制提供指导。此外,该研究还可以帮助开发者更好地理解LLM的攻击面,从而设计更安全的LLM应用。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable capabilities, yet they also introduce novel security challenges. For instance, prompt jailbreaking attacks involve adversaries crafting sophisticated prompts to elicit responses from LLMs that deviate from human values. To uncover vulnerabilities in LLM alignment methods, we propose the PASS framework (\underline{P}rompt J\underline{a}ilbreaking via \underline{S}emantic and \underline{S}tructural Formalization). Specifically, PASS employs reinforcement learning to transform initial jailbreak prompts into formalized descriptions, which enhances stealthiness and enables bypassing existing alignment defenses. The jailbreak outputs are then structured into a GraphRAG system that, by leveraging extracted relevant terms and formalized symbols as contextual input alongside the original query, strengthens subsequent attacks and facilitates more effective jailbreaks. We conducted extensive experiments on common open-source models, demonstrating the effectiveness of our attack.