Response Attack: Exploiting Contextual Priming to Jailbreak Large Language Models
作者: Ziqi Miao, Lijun Li, Yuan Xiong, Zhenhua Liu, Pengyu Zhu, Jing Shao
分类: cs.CL
发布日期: 2025-07-07 (更新: 2025-11-21)
备注: 20 pages, 10 figures. Code and data available at https://github.com/Dtc7w3PQ/Response-Attack
🔗 代码/项目: GITHUB
💡 一句话要点
提出Response Attack,利用上下文启动效应破解大型语言模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全性 越狱攻击 上下文启动效应 对抗性攻击
📋 核心要点
- 现有jailbreak攻击方法在有效性、效率和语义一致性方面存在不足,难以有效引导LLM生成有害内容。
- Response Attack (RA) 战略性地利用对话中的中间回复作为上下文启动器,诱导LLM产生违规内容。
- 实验表明,RA在多个LLM上显著提高了攻击成功率,优于现有jailbreak方法,且保持了隐蔽性和效率。
📝 摘要(中文)
上下文启动效应,即先前的刺激会隐蔽地影响后续判断,为大型语言模型(LLMs)提供了一个未被探索的攻击面。我们发现了一种上下文启动漏洞,即对话中先前的回复会引导其后续行为产生违反策略的内容。现有的越狱攻击主要依赖于单轮或多轮提示操纵,或注入静态的上下文示例,但这些方法的效果、效率或语义漂移有限。我们引入了Response Attack(RA),这是一个新颖的框架,它战略性地利用中间的、轻微有害的回复作为对话中的上下文启动器。通过重新构建有害查询并在发出目标触发提示之前注入这些中间回复,RA利用了LLM中先前被忽视的漏洞。在八个最先进的LLM上进行的大量实验表明,RA始终比九个领先的越狱基线实现了显着更高的攻击成功率。我们的结果表明,RA的成功直接归因于中间回复的战略性使用,这促使模型生成更明确和相关的有害内容,同时保持隐蔽性、效率和对原始查询的忠实性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)的安全性问题,具体而言,是如何绕过LLMs的安全策略,使其生成有害或违规内容。现有方法,如单轮或多轮提示工程、静态上下文示例注入等,在攻击成功率、效率和语义一致性方面存在局限性,难以有效利用LLMs的漏洞。
核心思路:论文的核心思路是利用上下文启动效应(Contextual Priming),即先前的对话内容会影响LLMs对后续输入的理解和响应。通过精心设计的中间回复,引导LLMs逐步偏离安全轨道,最终生成目标有害内容。这种方法类似于心理学中的“温水煮青蛙”效应,逐步突破LLMs的安全防线。
技术框架:Response Attack (RA) 的整体框架包含以下几个阶段:1) 有害查询重构:将原始有害查询进行适当的修改,使其更易于被LLM接受,并生成轻微有害的回复。2) 中间回复注入:将生成的轻微有害回复作为上下文信息注入到对话中,作为后续攻击的“启动器”。3) 目标触发提示:在注入中间回复后,发出目标触发提示,诱导LLM生成最终的有害内容。整个过程通过迭代进行,逐步增强上下文启动效应。
关键创新:RA的关键创新在于其利用了LLMs的上下文依赖性,将攻击过程分解为多个阶段,通过中间回复逐步引导LLMs生成有害内容。与传统的单轮或多轮提示攻击相比,RA更具隐蔽性和有效性,能够绕过LLMs的安全检测机制。此外,RA还避免了静态上下文示例注入带来的语义漂移问题,保证了攻击的针对性和准确性。
关键设计:RA的关键设计包括:1) 中间回复的生成策略,需要保证回复既具有一定的有害性,又不会过于明显,以免触发LLMs的安全机制。2) 目标触发提示的设计,需要与中间回复形成上下文关联,诱导LLMs生成最终的有害内容。3) 迭代次数的控制,需要根据LLMs的安全策略和上下文依赖性进行调整,以达到最佳的攻击效果。论文中可能还涉及到一些超参数的调整,例如中间回复的有害程度、目标触发提示的强度等,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Response Attack (RA) 在八个最先进的LLM上实现了显著高于九个领先的越狱基线的攻击成功率。具体性能数据未知,但论文强调RA在隐蔽性、效率和对原始查询的忠实性方面均优于现有方法。这些结果有力地证明了上下文启动效应在LLM安全攻击中的潜力。
🎯 应用场景
该研究揭示了大型语言模型在安全性方面存在的潜在风险,有助于开发者更好地理解和防范针对LLM的攻击。研究成果可应用于LLM安全评估、漏洞挖掘和防御机制开发等领域,提升LLM的鲁棒性和可靠性,降低其被恶意利用的风险。未来,可以探索更有效的上下文启动防御方法,构建更安全的LLM应用。
📄 摘要(原文)
Contextual priming, where earlier stimuli covertly bias later judgments, offers an unexplored attack surface for large language models (LLMs). We uncover a contextual priming vulnerability in which the previous response in the dialogue can steer its subsequent behavior toward policy-violating content. While existing jailbreak attacks largely rely on single-turn or multi-turn prompt manipulations, or inject static in-context examples, these methods suffer from limited effectiveness, inefficiency, or semantic drift. We introduce Response Attack (RA), a novel framework that strategically leverages intermediate, mildly harmful responses as contextual primers within a dialogue. By reformulating harmful queries and injecting these intermediate responses before issuing a targeted trigger prompt, RA exploits a previously overlooked vulnerability in LLMs. Extensive experiments across eight state-of-the-art LLMs show that RA consistently achieves significantly higher attack success rates than nine leading jailbreak baselines. Our results demonstrate that the success of RA is directly attributable to the strategic use of intermediate responses, which induce models to generate more explicit and relevant harmful content while maintaining stealth, efficiency, and fidelity to the original query. The code and data are available at https://github.com/Dtc7w3PQ/Response-Attack.