Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding

📄 arXiv: 2509.10931v1 📥 PDF

作者: Seongho Joo, Hyukhun Koh, Kyomin Jung

分类: cs.AI, cs.CL

发布日期: 2025-09-13

备注: EMNLP 2025


💡 一句话要点

提出HaPLa,利用归纳框架和符号编码破解LLM的有害内容防御机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 对抗性攻击 安全漏洞 归纳推理 符号编码 提示工程 黑盒攻击

📋 核心要点

  1. 现有LLM对有害内容的防御主要依赖于关键词过滤,容易被绕过,缺乏对语义层面的理解。
  2. HaPLa通过归纳框架引导LLM推断有害行为的中间步骤,并使用符号编码混淆有害内容,实现越狱攻击。
  3. 实验表明,HaPLa在多种LLM上具有高攻击成功率,同时也揭示了安全调整LLM的挑战。

📝 摘要(中文)

大型语言模型(LLMs)在各种任务中展现了卓越的能力,但其被滥用于有害目的的潜在风险仍然是一个重要的担忧。为了加强对此类漏洞的防御,必须研究通用的越狱攻击,这些攻击利用LLMs架构和学习范式中的内在弱点。为此,我们提出了一种新颖且广泛适用的越狱技术——有害提示清洗(HaPLa),它只需要对目标模型进行黑盒访问。HaPLa包含两个主要策略:1)归纳框架,它指示LLMs推断出实现有害活动的合理中间步骤,而不是直接响应明确的有害查询;2)符号编码,这是一种轻量级且灵活的方法,旨在混淆有害内容,因为当前的LLMs主要对明确的有害关键词敏感。实验结果表明,HaPLa在GPT系列模型上实现了超过95%的攻击成功率,在所有目标模型上实现了70%的攻击成功率。对各种符号编码规则的进一步分析也揭示了一个根本性的挑战:在不显著降低LLMs响应良性查询的帮助性的情况下,安全地调整LLMs仍然很困难。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)容易受到对抗性攻击,特别是“越狱”攻击的问题。现有的防御机制,如关键词过滤,对于语义上等价但表达方式不同的有害提示效果不佳。因此,如何设计一种通用的、能够绕过LLMs安全机制的攻击方法,是一个重要的挑战。

核心思路:论文的核心思路是利用LLMs的推理能力和对符号的敏感性。通过“归纳框架”,将有害目标分解为一系列看似无害的中间步骤,引导LLM逐步推导出有害行为。同时,使用“符号编码”来混淆有害关键词,使其不易被LLM的安全机制检测到。这种方法旨在利用LLM自身的弱点,而非直接对抗其防御机制。

技术框架:HaPLa攻击框架主要包含两个阶段:1) 归纳框架 (Abductive Framing):将有害请求分解为一系列中间步骤,每个步骤看似无害,但组合起来最终导致有害结果。例如,不是直接询问如何制造炸弹,而是询问制造某种化学品所需的原料,然后询问如何将这些原料混合。2) 符号编码 (Symbolic Encoding):使用各种符号替换、同义词替换、拼写错误等方式,混淆有害关键词,使其不易被LLM的安全机制检测到。例如,将“bomb”替换为“b0mb”或“the thing that goes boom”。

关键创新:HaPLa的关键创新在于其结合了归纳推理和符号编码两种策略。归纳推理利用了LLM的推理能力,使其在不知不觉中参与到有害行为中。符号编码则绕过了LLM对显式有害关键词的敏感性。这种组合使得HaPLa能够有效地绕过LLM的安全机制,实现越狱攻击。与现有方法相比,HaPLa更侧重于利用LLM自身的弱点,而非直接对抗其防御机制,因此具有更强的通用性和有效性。

关键设计:在归纳框架中,关键在于设计合理的中间步骤,使其既能引导LLM逐步推导出有害行为,又不会触发安全机制。在符号编码中,关键在于选择合适的符号替换规则,使其既能混淆有害关键词,又不会影响LLM对提示的理解。论文中使用了多种符号编码规则,包括字符替换、同义词替换、拼写错误等。具体参数设置和损失函数未知,因为是黑盒攻击。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,HaPLa在GPT系列模型上实现了超过95%的攻击成功率,在所有目标模型上实现了70%的攻击成功率。这表明HaPLa是一种非常有效的越狱攻击方法。此外,研究还发现,使用不同的符号编码规则对攻击成功率有显著影响,同时也揭示了安全调整LLM的困难,即在提高安全性的同时,可能会降低LLM在良性任务中的表现。

🎯 应用场景

该研究揭示了LLM在安全防御方面的潜在漏洞,有助于开发更强大的防御机制,例如更智能的提示检测和过滤技术。此外,该研究也提醒开发者在调整LLM时需要更加谨慎,避免过度限制LLM的能力,从而影响其在良性任务中的表现。该研究成果可应用于评估和改进LLM的安全性和可靠性。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their potential misuse for harmful purposes remains a significant concern. To strengthen defenses against such vulnerabilities, it is essential to investigate universal jailbreak attacks that exploit intrinsic weaknesses in the architecture and learning paradigms of LLMs. In response, we propose \textbf{H}armful \textbf{P}rompt \textbf{La}undering (HaPLa), a novel and broadly applicable jailbreaking technique that requires only black-box access to target models. HaPLa incorporates two primary strategies: 1) \textit{abductive framing}, which instructs LLMs to infer plausible intermediate steps toward harmful activities, rather than directly responding to explicit harmful queries; and 2) \textit{symbolic encoding}, a lightweight and flexible approach designed to obfuscate harmful content, given that current LLMs remain sensitive primarily to explicit harmful keywords. Experimental results show that HaPLa achieves over 95% attack success rate on GPT-series models and 70% across all targets. Further analysis with diverse symbolic encoding rules also reveals a fundamental challenge: it remains difficult to safely tune LLMs without significantly diminishing their helpfulness in responding to benign queries.