Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring

作者: Honglin Mu, Han He, Yuxin Zhou, Yunlong Feng, Yang Xu, Libo Qin, Xiaoming Shi, Zeming Liu, Xudong Han, Qi Shi, Qingfu Zhu, Wanxiang Che

分类: cs.CL, cs.AI

发布日期: 2024-10-28 (更新: 2025-03-06)

备注: Accepted by NAACL 2025

💡 一句话要点

提出基于良性数据镜像的隐蔽越狱攻击方法，提升大语言模型安全性评估的隐蔽性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 安全性评估 良性数据蒸馏 隐蔽攻击 迁移学习 对抗攻击

📋 核心要点

现有黑盒越狱攻击依赖模型反馈，易被内容审核拦截，隐蔽性不足。
利用良性数据蒸馏训练目标模型的镜像模型，指导恶意提示生成，提升攻击隐蔽性。
实验表明，该方法在GPT-3.5 Turbo上实现了高达92%的攻击成功率，且隐蔽性更强。

📝 摘要（中文）

大语言模型（LLM）的安全性是一个关键问题，许多研究采用红队测试来增强模型安全性。其中，越狱方法通过构造恶意提示来诱导模型输出与安全对齐相反的内容，从而探索潜在漏洞。现有的黑盒越狱方法通常依赖于模型反馈，在攻击搜索过程中重复提交带有可检测恶意指令的查询。虽然这些方法有效，但攻击可能在搜索过程中被内容审核员拦截。我们提出了一种改进的迁移攻击方法，通过良性数据蒸馏在本地训练目标黑盒模型的镜像模型，从而指导恶意提示的构建。这种方法提供了增强的隐蔽性，因为它不涉及在搜索阶段向目标模型提交可识别的恶意指令。我们的方法在AdvBench的一个子集上，针对GPT-3.5 Turbo实现了高达92%的攻击成功率，或者80%的平衡值，平均每个样本有1.5个可检测的越狱查询。这些结果强调了对更强大的防御机制的需求。

🔬 方法详解

问题定义：现有黑盒越狱攻击方法在搜索恶意prompt时，需要频繁与目标LLM交互，提交带有潜在恶意指令的查询。这些查询容易被内容审核系统检测到，导致攻击尝试被拦截，从而限制了攻击的有效性和隐蔽性。因此，如何设计一种更隐蔽的越狱攻击方法，避免在搜索阶段暴露恶意意图，是一个亟待解决的问题。

核心思路：本论文的核心思路是利用良性数据蒸馏技术，在本地训练一个目标黑盒LLM的镜像模型。该镜像模型通过学习目标模型在良性数据上的行为，从而模拟目标模型的决策过程。攻击者可以在本地镜像模型上进行prompt优化，生成能够绕过安全对齐的恶意prompt，而无需直接与目标模型交互。这样，攻击的搜索过程就不会暴露恶意意图，从而提高了攻击的隐蔽性。

技术框架：该方法的整体框架包括以下几个主要阶段：1) 良性数据收集：收集一批不包含恶意信息的良性数据，用于训练镜像模型。2) 镜像模型训练：使用收集到的良性数据，通过蒸馏学习的方式训练一个本地镜像模型，使其尽可能逼近目标黑盒LLM的行为。3) 恶意Prompt生成：在镜像模型上，利用优化算法（例如梯度下降）搜索能够诱导模型产生不安全输出的恶意prompt。4) 迁移攻击：将生成的恶意prompt迁移到目标黑盒LLM上进行攻击。

关键创新：该方法最重要的创新点在于利用良性数据蒸馏构建目标模型的本地镜像，从而实现了隐蔽的prompt搜索。与现有方法相比，该方法避免了在搜索阶段与目标模型进行直接交互，从而大大降低了被内容审核系统检测到的风险。此外，该方法还能够利用镜像模型进行更高效的prompt优化，因为本地模型的推理速度通常比远程API更快。

关键设计：在镜像模型训练阶段，可以使用多种蒸馏损失函数，例如KL散度损失或交叉熵损失，以确保镜像模型能够准确地学习目标模型的行为。在恶意prompt生成阶段，可以使用梯度下降等优化算法，并结合一些约束条件，例如限制prompt的长度或语义相似度，以提高攻击的成功率和隐蔽性。此外，还可以采用对抗训练等技术，进一步增强镜像模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在AdvBench数据集的一个子集上，针对GPT-3.5 Turbo实现了高达92%的攻击成功率。与直接攻击相比，该方法显著降低了被内容审核系统检测到的风险，平均每个样本仅需1.5个可检测的越狱查询即可成功攻击。这些结果表明，该方法在提高攻击成功率和隐蔽性方面均具有显著优势。

🎯 应用场景

该研究成果可应用于大语言模型安全性的评估与提升。通过模拟隐蔽的攻击手段，可以更全面地发现模型潜在的安全漏洞，从而为模型开发者提供改进方向。此外，该方法也可用于构建更强大的防御机制，例如设计能够检测和拦截恶意prompt的内容审核系统。该研究对于保障LLM的安全可靠应用具有重要意义。

📄 摘要（原文）

Large language model (LLM) safety is a critical issue, with numerous studies employing red team testing to enhance model security. Among these, jailbreak methods explore potential vulnerabilities by crafting malicious prompts that induce model outputs contrary to safety alignments. Existing black-box jailbreak methods often rely on model feedback, repeatedly submitting queries with detectable malicious instructions during the attack search process. Although these approaches are effective, the attacks may be intercepted by content moderators during the search process. We propose an improved transfer attack method that guides malicious prompt construction by locally training a mirror model of the target black-box model through benign data distillation. This method offers enhanced stealth, as it does not involve submitting identifiable malicious instructions to the target model during the search phase. Our approach achieved a maximum attack success rate of 92%, or a balanced value of 80% with an average of 1.5 detectable jailbreak queries per sample against GPT-3.5 Turbo on a subset of AdvBench. These results underscore the need for more robust defense mechanisms.

Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理