SoK: Robustness in Large Language Models against Jailbreak Attacks

📄 arXiv: 2605.05058v1 📥 PDF

作者: Feiyue Xu, Hongsheng Hu, Chaoxiang He, Sheng Hang, Hanqing Hu, Xiuming Liu, Yubo Zhao, Zhengyan Zhou, Bin Benjamin Zhu, Shi-Feng Sun, Dawu Gu, Shuo Wang

分类: cs.CR, cs.AI

发布日期: 2026-05-06

备注: To Appear in the 47th IEEE Symposium on Security and Privacy, May 18-20, 2026


💡 一句话要点

提出Security Cube框架,系统评估大语言模型抵抗越狱攻击的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 鲁棒性 安全性评估 对抗攻击

📋 核心要点

  1. 现有LLM容易受到越狱攻击,导致生成有害内容,但现有评估方法(如攻击成功率)无法全面衡量LLM的安全性。
  2. 论文提出Security Cube框架,从多维度统一评估越狱攻击和防御技术,从而更全面地衡量LLM的安全性。
  3. 通过Security Cube,论文对13种攻击和5种防御进行了基准测试,揭示了当前LLM在对抗越狱攻击方面的脆弱性,并指出了未来的研究方向。

📝 摘要(中文)

大型语言模型(LLMs)取得了显著成功,但仍然极易受到越狱攻击的影响,这种攻击通过对抗性提示诱使模型生成有害、不道德或违反策略的输出。这些攻击带来了现实世界的风险,在高风险应用中削弱了安全性、信任和法规遵从性。尽管已经提出了各种攻击和防御方法,但现有的评估实践并不充分,通常依赖于诸如攻击成功率之类的狭隘指标,而未能捕捉LLM安全性的多维性质。本文提出了越狱攻击和防御的系统分类,并引入了Security Cube,这是一个统一的、多维的框架,用于全面评估这些技术。我们提供了现有攻击和防御的详细比较表,突出了文献中的关键见解和开放挑战。利用Security Cube,我们对13种代表性攻击和5种防御进行了基准研究,从而清晰地了解了当前越狱攻击、防御、自动评判和LLM漏洞的现状。基于这些评估,我们提炼出关键发现,确定了未解决的问题,并概述了增强LLM抵抗越狱攻击的鲁棒性的有希望的研究方向。我们的分析旨在为更鲁棒、可解释和值得信赖的LLM系统铺平道路。

🔬 方法详解

问题定义:大型语言模型容易受到越狱攻击,攻击者通过精心设计的提示诱导模型生成有害或不道德的内容。现有的评估方法通常只关注攻击成功率,忽略了LLM安全性的多维度特征,例如生成内容的危害程度、模型性能下降程度等。因此,需要一个更全面的评估框架来衡量LLM抵抗越狱攻击的鲁棒性。

核心思路:论文的核心思路是构建一个多维度的评估框架,即Security Cube,该框架从多个角度评估LLM在面对越狱攻击时的表现。Security Cube不仅考虑攻击成功率,还包括生成内容的危害性、模型性能的下降程度、防御方法的有效性等多个维度。通过综合评估这些维度,可以更全面地了解LLM的安全性。

技术框架:Security Cube框架包含以下几个主要模块:1) 攻击方法库:收集和整理现有的越狱攻击方法。2) 防御方法库:收集和整理现有的防御方法。3) 评估指标:定义多个评估指标,用于衡量LLM在面对攻击时的表现,包括攻击成功率、生成内容的危害性、模型性能下降程度等。4) 自动化评估流程:设计自动化评估流程,可以批量测试不同的攻击和防御方法,并生成评估报告。

关键创新:Security Cube的关键创新在于其多维度的评估方法。与传统的只关注攻击成功率的评估方法不同,Security Cube综合考虑了多个维度,从而更全面地衡量LLM的安全性。此外,Security Cube还提供了一个统一的评估框架,可以方便地比较不同的攻击和防御方法。

关键设计:Security Cube的关键设计包括:1) 评估指标的选择:选择合适的评估指标是Security Cube的关键。论文选择的评估指标包括攻击成功率、生成内容的危害性(例如,使用自动评判器来评估生成内容的毒性)、模型性能下降程度(例如,在标准数据集上测试模型在攻击后的性能)等。2) 自动化评估流程的设计:自动化评估流程可以批量测试不同的攻击和防御方法,并生成评估报告。该流程包括提示生成、模型推理、结果评估等步骤。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文利用Security Cube对13种攻击和5种防御进行了基准测试,结果表明,现有的LLM在面对越狱攻击时仍然非常脆弱。例如,某些攻击方法可以以很高的成功率诱导模型生成有害内容,而现有的防御方法往往只能部分缓解这些攻击。这些实验结果清晰地揭示了当前LLM在安全性方面的不足,并为未来的研究指明了方向。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型在各种实际应用场景中的安全性,例如智能客服、内容生成、代码生成等。通过Security Cube框架,开发者可以更好地了解其LLM的安全性,并选择合适的防御方法来降低越狱攻击的风险。该研究有助于构建更安全、可靠和值得信赖的LLM系统。

📄 摘要(原文)

Large Language Models (LLMs) have achieved remarkable success but remain highly susceptible to jailbreak attacks, in which adversarial prompts coerce models into generating harmful, unethical, or policy-violating outputs. Such attacks pose real-world risks, eroding safety, trust, and regulatory compliance in high-stakes applications. Although a variety of attack and defense methods have been proposed, existing evaluation practices are inadequate, often relying on narrow metrics like attack success rate that fail to capture the multidimensional nature of LLM security. In this paper, we present a systematic taxonomy of jailbreak attacks and defenses and introduce Security Cube, a unified, multi-dimensional framework for comprehensive evaluation of these techniques. We provide detailed comparison tables of existing attacks and defenses, highlighting key insights and open challenges across the literature. Leveraging Security Cube, we conduct benchmark studies on 13 representative attacks and 5 defenses, establishing a clear view of the current landscape encompassing jailbreak attacks, defenses, automated judges, and LLM vulnerabilities. Based on these evaluations, we distill critical findings, identify unresolved problems, and outline promising research directions for enhancing LLM robustness against jailbreak attacks. Our analysis aims to pave the way towards more robust, interpretable, and trustworthy LLM systems. Our code is available at Code.