Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis
作者: Zvi Topol
分类: cs.CR, cs.AI
发布日期: 2026-05-13
💡 一句话要点
提出基于生存分析的LLM安全性评估框架,量化重复攻击下的安全性降级
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全性评估 越狱攻击 生存分析 风险评估
📋 核心要点
- 现有LLM安全评估方法仅提供二元结果,忽略了攻击随时间演变的动态过程,无法深入理解模型安全性。
- 该论文提出使用生存分析方法,将LLM越狱视为生存事件,分析越狱时间与风险因素之间的关系。
- 实验结果表明,不同LLM在迭代攻击下表现出不同的脆弱性模式,验证了该框架在LLM安全评估中的有效性。
📝 摘要(中文)
大型语言模型(LLM)的应用日益广泛,但其安全性仍然容易受到对抗性越狱攻击的影响。现有的评估框架通常只报告二元的成功/失败指标,无法捕捉攻击在持续对抗压力下成功的时序动态。本初步研究提出了一种新的评估框架,应用生存分析技术来表征LLM越狱漏洞。我们的方法将越狱时间建模为生存结果,从而能够估计风险函数、生存曲线以及与成功攻击相关的风险因素。我们使用HarmBench数据集中的一部分提示,针对三个攻击类别评估了三个LLM。分析表明,模型表现出不同的漏洞特征:一个模型在迭代攻击下表现出快速降级,而另外两个模型则表现出一致的中等漏洞。我们的框架为模型和LLM应用程序开发人员提供了可操作的见解,并将生存分析确立为LLM安全评估的严格方法。
🔬 方法详解
问题定义:现有LLM安全评估方法主要采用二元指标(成功/失败),无法捕捉到在持续对抗性攻击下,LLM安全性随时间推移的降级过程。这种静态评估方式无法提供关于模型脆弱性演变的细粒度信息,阻碍了对LLM安全性的深入理解和改进。
核心思路:该论文的核心思路是将LLM的越狱过程视为一个“生存事件”,即模型在受到攻击后能够“存活”多久(直到被成功越狱)。通过借鉴生存分析中的概念和方法,例如生存曲线和风险函数,可以量化LLM在面对持续攻击时的脆弱性,并识别影响越狱时间的关键因素。
技术框架:该框架主要包含以下几个阶段:1) 攻击提示生成:从HarmBench等数据集选取或生成对抗性提示,用于攻击LLM。2) 迭代攻击:对LLM进行多次迭代攻击,记录每次攻击的时间和结果(成功/失败)。3) 生存分析建模:将每次攻击的结果转化为生存分析数据,包括越狱时间(time-to-jailbreak)和审查状态(censoring status,如果攻击在观察期内未成功)。4) 风险评估:使用生存分析方法(如Kaplan-Meier估计、Cox比例风险模型)估计生存曲线、风险函数,并识别与越狱风险相关的因素。
关键创新:该论文的关键创新在于将生存分析方法引入LLM安全评估领域。与传统的二元评估方法相比,生存分析能够提供更丰富、更细粒度的信息,例如模型在不同攻击强度下的生存概率、越狱风险随时间的变化趋势,以及影响越狱风险的关键因素。这种方法能够更全面地评估LLM的安全性,并为模型改进提供更有效的指导。
关键设计:在实验中,作者使用了HarmBench数据集中的一部分提示,涵盖了三个攻击类别。他们选择了Kaplan-Meier估计方法来估计生存曲线,并使用Cox比例风险模型来识别与越狱风险相关的因素。具体的参数设置和模型选择可能需要根据具体的数据集和攻击场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的LLM在面对迭代攻击时表现出不同的脆弱性模式。例如,某个模型在迭代攻击下表现出快速的安全性降级,而其他模型则表现出相对稳定的安全性。这些结果表明,使用生存分析方法可以有效地识别LLM的安全性弱点,并为模型改进提供有价值的见解。
🎯 应用场景
该研究成果可应用于LLM安全性的持续监控和评估,帮助开发者及时发现和修复模型漏洞。此外,该框架还可以用于比较不同LLM的安全性,指导用户选择更安全的模型。未来,该方法可以扩展到其他AI系统的安全评估,例如自动驾驶系统和医疗诊断系统。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed in a wide range of applications, yet remain vulnerable to adversarial jailbreak attacks that circumvent their safety guardrails. Existing evaluation frameworks typically report binary success/failure metrics, failing to capture the temporal dynamics of how attacks succeed under persistent adversarial pressure. This preliminary work proposes a novel evaluation framework that applies survival analysis techniques to characterize LLM jailbreak vuln`erability. Our approach models the time-to-jailbreak as a survival outcome, enabling estimation of hazard functions, survival curves, and risk factors associated with successful attacks. We evaluate three LLMs against a subset of prompts from the HarmBench dataset spanning three attack categories. Our analysis reveals that models exhibit distinct vulnerability profiles: while one model demonstrates rapid degradation under iterative attacks, the two other models show consistent moderate vulnerability. Our framework provides actionable insights for model and LLM application developers and establishes survival analysis as a rigorous methodology for LLM safety evaluation.