The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems
作者: Yihao Zhang, Kai Wang, Jiangrong Wu, Haolin Wu, Yuxuan Zhou, Zeming Wei, Dongxian Wu, Xun Chen, Jun Sun, Meng Sun
分类: cs.CR, cs.AI, cs.CL, cs.CV, cs.LG
发布日期: 2026-04-13
💡 一句话要点
提出Salami Attack,利用累积风险突破LLM安全防线,实现多模态通用越狱
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 越狱攻击 多轮对话 安全风险 累积风险
📋 核心要点
- 现有多轮越狱攻击依赖显式有害触发和模型特定上下文,易被检测且泛化性差,限制了实际威胁。
- 提出Salami Slicing Risk,通过累积低风险输入逐步诱导LLM产生有害行为,无需预设上下文。
- 构建Salami Attack框架,实验证明其在多种模型和模态上具有高攻击成功率和对防御的鲁棒性。
📝 摘要(中文)
大型语言模型(LLMs)面临着来自越狱的显著安全风险,越狱是一种操纵模型以绕过内置安全约束并生成不道德或不安全内容的行为。在各种越狱技术中,多轮越狱攻击比单轮攻击更隐蔽和持久,暴露了LLMs的关键漏洞。然而,现有的多轮越狱方法存在两个根本限制,影响了在现实场景中的实际影响:(a)随着模型变得更加上下文感知,任何明确的有害触发因素越来越可能被标记和阻止;(b)成功的最后一步触发通常需要微调的、特定于模型的上下文,使得此类攻击高度依赖于上下文。为了填补这一空白,我们提出了“Salami Slicing Risk”,它通过链接许多单独规避对齐阈值的低风险输入来运作,但累积地积累有害意图,最终触发高风险行为,而不过度依赖于预先设计的上下文结构。在此风险的基础上,我们开发了Salami Attack,这是一个普遍适用于多种模型类型和模态的自动框架。严格的实验证明了其在各种模型和模态上的最先进性能,在GPT-4o和Gemini上实现了超过90%的攻击成功率,以及对真实对齐防御的鲁棒性。我们还提出了一种防御策略,将Salami Attack限制至少44.8%,同时实现了对其他多轮越狱攻击的最大64.8%的阻止率。我们的发现为多轮越狱的普遍风险提供了重要的见解,并提供了可操作的缓解策略来增强LLM的安全性。
🔬 方法详解
问题定义:现有的多轮越狱攻击方法存在两个主要痛点。一是,随着LLM对上下文的感知能力增强,显式的有害触发词更容易被检测和屏蔽。二是,攻击的成功往往依赖于精心设计的、模型特定的上下文,导致攻击的泛化能力较差,难以在不同模型上复现。因此,需要一种更隐蔽、更通用的攻击方法,能够绕过LLM的安全机制,并在不同模型上有效实施。
核心思路:论文的核心思路是利用“Salami Slicing Risk”,即“切香肠”风险。这种风险指的是,通过一系列看似无害的、低风险的输入,逐步积累有害意图,最终触发LLM产生高风险的行为。每个单独的输入都低于LLM的安全阈值,因此难以被检测,但它们的累积效应却可以绕过安全机制。这种方法类似于切香肠,每次只切一小片,最终却能切完整个香肠。
技术框架:Salami Attack框架是一个自动化的攻击框架,可以应用于多种模型类型和模态。该框架主要包含以下几个阶段:1) 目标设定:确定攻击的目标,例如生成特定的有害内容或执行特定的恶意行为。2) 输入生成:生成一系列低风险的输入,每个输入都旨在逐步引导LLM朝着攻击目标前进。3) 模型交互:将生成的输入依次输入LLM,并记录LLM的输出。4) 风险评估:评估LLM的输出是否接近攻击目标,并调整后续输入的生成策略。5) 攻击完成:当LLM的输出达到攻击目标时,攻击完成。
关键创新:Salami Attack的关键创新在于其利用累积风险的思想,避免了对显式有害触发词和模型特定上下文的依赖。与现有的攻击方法相比,Salami Attack更加隐蔽、通用和鲁棒。它能够绕过LLM的安全机制,并在不同模型上有效实施,从而暴露了LLM的潜在安全风险。
关键设计:在Salami Attack中,关键的设计包括:1) 低风险输入的生成策略:如何生成既能引导LLM朝着攻击目标前进,又能避免触发安全机制的输入?这需要仔细设计输入的措辞和内容。2) 风险评估方法:如何评估LLM的输出是否接近攻击目标?这需要定义合适的指标和评估方法。3) 攻击目标:攻击目标的选择会影响攻击的难度和成功率。需要根据具体的应用场景选择合适的攻击目标。
🖼️ 关键图片
📊 实验亮点
Salami Attack在GPT-4o和Gemini上实现了超过90%的攻击成功率,表明其具有强大的攻击能力。此外,该攻击对真实世界的对齐防御具有鲁棒性,表明其能够绕过现有的安全机制。论文还提出了一种防御策略,可以将Salami Attack的成功率降低至少44.8%,同时对其他多轮越狱攻击的阻止率达到64.8%,表明该防御策略具有一定的有效性。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性。通过Salami Attack,可以发现LLM中潜在的安全漏洞,并为开发更有效的防御机制提供指导。此外,该研究还可以帮助开发者更好地理解LLM的风险,并采取相应的措施来降低风险,例如改进模型的训练数据、调整模型的安全策略等。该研究的未来影响在于推动LLM安全性的发展,使其能够更安全、可靠地应用于各种场景。
📄 摘要(原文)
Large Language Models (LLMs) face prominent security risks from jailbreaking, a practice that manipulates models to bypass built-in security constraints and generate unethical or unsafe content. Among various jailbreak techniques, multi-turn jailbreak attacks are more covert and persistent than single-turn counterparts, exposing critical vulnerabilities of LLMs. However, existing multi-turn jailbreak methods suffer from two fundamental limitations that affect the actual impact in real-world scenarios: (a) As models become more context-aware, any explicit harmful trigger is increasingly likely to be flagged and blocked; (b) Successful final-step triggers often require finely tuned, model-specific contexts, making such attacks highly context-dependent. To fill this gap, we propose \textit{Salami Slicing Risk}, which operates by chaining numerous low-risk inputs that individually evade alignment thresholds but cumulatively accumulate harmful intent to ultimately trigger high-risk behaviors, without heavy reliance on pre-designed contextual structures. Building on this risk, we develop Salami Attack, an automatic framework universally applicable to multiple model types and modalities. Rigorous experiments demonstrate its state-of-the-art performance across diverse models and modalities, achieving over 90\% Attack Success Rate on GPT-4o and Gemini, as well as robustness against real-world alignment defenses. We also proposed a defense strategy to constrain the Salami Attack by at least 44.8\% while achieving a maximum blocking rate of 64.8\% against other multi-turn jailbreak attacks. Our findings provide critical insights into the pervasive risks of multi-turn jailbreaking and offer actionable mitigation strategies to enhance LLM security.