Structured Semantic Cloaking for Jailbreak Attacks on Large Language Models

作者: Xiaobing Sun, Perry Lam, Shaohua Li, Zizhou Wang, Rick Siow Mong Goh, Yong Liu, Liangli Zhen

分类: cs.CL

发布日期: 2026-03-17

备注: 15 pages

💡 一句话要点

提出结构化语义伪装S2C，用于绕过大型语言模型的越狱攻击防御。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 安全防御 语义伪装 对抗攻击

📋 核心要点

现有LLM安全机制能识别混淆后的恶意意图，导致表面混淆攻击失效，对LLM进行越狱攻击仍然面临挑战。
S2C框架通过情境重构、内容碎片化和线索引导伪装，延迟和重构语义整合，绕过安全触发器。
实验表明，S2C在多个LLM上显著提高了攻击成功率，尤其是在GPT-5-mini上表现突出。

📝 摘要（中文）

现代大型语言模型（LLM）采用的安全机制超越了表面输入过滤，延伸到潜在语义表示和生成时推理，使其能够在推理过程中恢复被混淆的恶意意图并拒绝执行，从而使许多表面混淆越狱攻击失效。本文提出了一种新颖的多维越狱攻击框架——结构化语义伪装（S2C），该框架通过操纵模型推理过程中恶意语义意图的重构方式来实现攻击。S2C策略性地分布和重塑语义线索，使得完全的意图整合需要多步推理和更深层潜在表示中的长程共指消解。该框架包含三个互补机制：（1）情境重构，将请求嵌入到看似合理的高风险场景中，以引导模型倾向于遵从；（2）内容碎片化，将请求的语义签名分散到不相交的提示片段中；（3）线索引导伪装，伪装剩余的语义线索，同时嵌入可恢复的标记来指导输出生成。通过延迟和重构语义整合，S2C降低了依赖于连贯或显式重构的恶意意图的安全触发器，同时保留了足够多的指令可恢复性以实现功能性输出生成。在HarmBench和JBB-Behaviors上对多个开源和专有LLM进行评估，S2C的攻击成功率（ASR）分别比当前SOTA提高了12.4%和9.7%。值得注意的是，S2C在GPT-5-mini上取得了显著的提升，在JBB-Behaviors上优于最强的基线26%。本文还分析了哪些组合在广泛的模型系列中表现最佳，并描述了混淆程度与输入可恢复性之间对越狱成功的影响。

🔬 方法详解

问题定义：论文旨在解决现有越狱攻击方法难以有效绕过大型语言模型（LLM）深层安全防御机制的问题。现有的表面混淆方法无法欺骗LLM，因为LLM能够理解潜在的语义信息并拒绝执行恶意请求。因此，需要一种新的攻击方法，能够干扰LLM对恶意意图的识别，从而实现越狱攻击。

核心思路：论文的核心思路是通过结构化语义伪装（S2C）来分散和重塑恶意意图的语义线索，使得LLM在推理过程中难以将这些线索整合起来，从而绕过安全机制。S2C通过延迟和重构语义整合，降低了安全触发器的有效性，同时保证了指令的可恢复性，从而生成功能性输出。

技术框架：S2C框架包含三个主要模块：情境重构（Contextual Reframing）、内容碎片化（Content Fragmentation）和线索引导伪装（Clue-Guided Camouflage）。情境重构将恶意请求嵌入到看似合理的高风险场景中，以影响模型的判断。内容碎片化将请求的语义签名分散到不同的提示片段中，增加模型整合信息的难度。线索引导伪装则伪装剩余的语义线索，并嵌入可恢复的标记来引导输出生成。这三个模块协同工作，共同实现对LLM的越狱攻击。

关键创新：S2C的关键创新在于其多维度的攻击策略，它不仅关注表面的混淆，更深入地操纵了LLM在推理过程中对语义意图的重构方式。通过分散、重塑和伪装语义线索，S2C有效地干扰了LLM的安全机制，使其难以识别恶意意图。与传统的表面混淆方法相比，S2C能够更有效地绕过LLM的深层防御。

关键设计：S2C的关键设计包括：(1) 情境重构中，需要精心设计高风险场景，使其既能引导模型倾向于遵从，又不至于过于明显而触发安全机制。(2) 内容碎片化中，需要合理地分割请求的语义信息，并确保每个片段都具有一定的独立性，同时又能够通过线索进行关联。(3) 线索引导伪装中，需要选择合适的伪装方式，并嵌入可恢复的标记，以便模型能够正确地生成输出。具体的参数设置和网络结构取决于所攻击的LLM的特性和安全机制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，S2C在HarmBench和JBB-Behaviors数据集上分别将攻击成功率（ASR）提高了12.4%和9.7%，显著优于当前的SOTA方法。尤其是在GPT-5-mini模型上，S2C在JBB-Behaviors数据集上的表现比最强基线高出26%，证明了其在对抗先进LLM安全机制方面的有效性。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性，帮助开发者发现和修复模型中的安全漏洞。同时，该研究也为对抗恶意利用LLM提供了新的思路，例如，可以基于S2C的原理设计更有效的防御机制，从而保护LLM免受越狱攻击。

📄 摘要（原文）

Modern LLMs employ safety mechanisms that extend beyond surface-level input filtering to latent semantic representations and generation-time reasoning, enabling them to recover obfuscated malicious intent during inference and refuse accordingly, and rendering many surface-level obfuscation jailbreak attacks ineffective. We propose Structured Semantic Cloaking (S2C), a novel multi-dimensional jailbreak attack framework that manipulates how malicious semantic intent is reconstructed during model inference. S2C strategically distributes and reshapes semantic cues such that full intent consolidation requires multi-step inference and long-range co-reference resolution within deeper latent representations. The framework comprises three complementary mechanisms: (1) Contextual Reframing, which embeds the request within a plausible high-stakes scenario to bias the model toward compliance; (2) Content Fragmentation, which disperses the semantic signature of the request across disjoint prompt segments; and (3) Clue-Guided Camouflage, which disguises residual semantic cues while embedding recoverable markers that guide output generation. By delaying and restructuring semantic consolidation, S2C degrades safety triggers that depend on coherent or explicitly reconstructed malicious intent at decoding time, while preserving sufficient instruction recoverability for functional output generation. We evaluate S2C across multiple open-source and proprietary LLMs using HarmBench and JBB-Behaviors, where it improves Attack Success Rate (ASR) by 12.4% and 9.7%, respectively, over the current SOTA. Notably, S2C achieves substantial gains on GPT-5-mini, outperforming the strongest baseline by 26% on JBB-Behaviors. We also analyse which combinations perform best against broad families of models, and characterise the trade-off between the extent of obfuscation versus input recoverability on jailbreak success.

Structured Semantic Cloaking for Jailbreak Attacks on Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理