Prefill-level Jailbreak: A Black-Box Risk Analysis of Large Language Models

📄 arXiv: 2504.21038v2 📥 PDF

作者: Yakai Li, Jiekang Hu, Weiduan Sang, Luping Ma, Dongsheng Nie, Weijuan Zhang, Aimin Yu, Yi Su, Qingjia Huang, Qihang Zhou

分类: cs.CR, cs.AI

发布日期: 2025-04-28 (更新: 2025-08-25)


💡 一句话要点

提出预填充攻击方法,揭示大语言模型新的安全漏洞

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 预填充攻击 黑盒攻击 安全漏洞 提示工程 对抗攻击

📋 核心要点

  1. 现有大语言模型越狱攻击研究主要集中在提示层面,忽略了用户可控的响应预填充带来的安全风险。
  2. 论文提出预填充攻击方法,通过控制模型输出的起始部分,直接操纵模型状态,实现越狱。
  3. 实验证明预填充攻击成功率高,且能有效提升现有提示攻击的成功率,但传统防御手段效果有限。

📝 摘要(中文)

大型语言模型面临来自越狱攻击的安全威胁。现有研究主要集中在提示层面的攻击,而忽略了用户可控的响应预填充这一未被充分探索的攻击面。预填充功能允许攻击者控制模型输出的开头,从而将攻击范式从说服转变为直接的状态操纵。本文对预填充层面的越狱攻击进行了系统的黑盒安全分析,对这些新型攻击进行分类,并评估了它们在十四个语言模型上的有效性。实验表明,预填充攻击的成功率很高,自适应方法在某些模型上超过99%。Token级别的概率分析表明,这些攻击通过改变第一个token的概率,从拒绝到顺从,从而实现初始状态的操纵。此外,预填充越狱可以作为有效的增强器,将现有提示级别攻击的成功率提高10到15个百分点。对几种防御策略的评估表明,传统的内容过滤器提供的保护有限。我们发现,一种侧重于提示和预填充之间操纵关系的检测方法更有效。我们的研究结果揭示了当前LLM安全对齐方面的差距,并强调需要在未来的安全训练中解决预填充攻击面。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中,由于用户可控的响应预填充功能而引入的新型安全漏洞问题。现有方法主要关注提示层面的攻击,忽略了预填充攻击面,导致模型容易受到攻击者通过控制模型输出起始部分进行的状态操纵。

核心思路:论文的核心思路是利用预填充功能,通过精心设计的预填充内容来操纵模型的初始状态,使其输出符合攻击者意图的有害内容。这种方法将攻击方式从传统的“说服”模型转变为直接“控制”模型状态。

技术框架:论文采用黑盒攻击的方式,不需要了解模型的内部结构和参数。攻击流程主要包括:1) 设计预填充内容;2) 将预填充内容与提示词一起输入模型;3) 评估模型输出是否符合攻击目标。论文还研究了自适应的预填充攻击方法,以及预填充攻击作为提示攻击增强器的效果。

关键创新:论文最重要的创新点在于发现了预填充攻击这一新的攻击面,并证明了其有效性。与传统的提示攻击相比,预填充攻击可以直接操纵模型的初始状态,从而更容易绕过安全防御机制。此外,论文还提出了基于提示和预填充之间关系的检测方法,以应对这种新型攻击。

关键设计:论文通过token级别的概率分析,揭示了预填充攻击的工作原理,即通过改变第一个token的概率分布,使模型从拒绝输出有害内容转变为顺从。自适应预填充攻击方法通过迭代优化预填充内容,进一步提高了攻击成功率。防御方面,论文提出了一种检测方法,该方法关注提示和预填充之间的语义一致性,如果两者之间存在明显的操纵关系,则判定为攻击。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,预填充攻击在多个大型语言模型上都取得了很高的成功率,自适应方法在某些模型上甚至超过99%。此外,预填充攻击可以作为现有提示攻击的有效增强器,将成功率提高10-15个百分点。对传统内容过滤器的评估表明其防御效果有限,而基于提示和预填充之间关系的检测方法则更为有效。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,尤其是在用户可控输入较多的场景下,如聊天机器人、代码生成工具等。通过识别和防御预填充攻击,可以有效防止模型被恶意利用,输出有害信息或执行恶意操作,从而保障用户安全和模型的可信度。未来的研究可以进一步探索更有效的防御策略,并将其集成到模型的安全训练流程中。

📄 摘要(原文)

Large Language Models face security threats from jailbreak attacks. Existing research has predominantly focused on prompt-level attacks while largely ignoring the underexplored attack surface of user-controlled response prefilling. This functionality allows an attacker to dictate the beginning of a model's output, thereby shifting the attack paradigm from persuasion to direct state manipulation.In this paper, we present a systematic black-box security analysis of prefill-level jailbreak attacks. We categorize these new attacks and evaluate their effectiveness across fourteen language models. Our experiments show that prefill-level attacks achieve high success rates, with adaptive methods exceeding 99% on several models. Token-level probability analysis reveals that these attacks work through initial-state manipulation by changing the first-token probability from refusal to compliance.Furthermore, we show that prefill-level jailbreak can act as effective enhancers, increasing the success of existing prompt-level attacks by 10 to 15 percentage points. Our evaluation of several defense strategies indicates that conventional content filters offer limited protection. We find that a detection method focusing on the manipulative relationship between the prompt and the prefill is more effective. Our findings reveal a gap in current LLM safety alignment and highlight the need to address the prefill attack surface in future safety training.