Safety Paradox: How Enhanced Safety Awareness Leaves LLMs Vulnerable to Posterior Attack

📄 arXiv: 2606.05614v1 📥 PDF

作者: Long P. Hoang, Hai V. Le, Shaoyang Xu, Wei Lu, Wenxuan Zhang

分类: cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出后验攻击以揭示大型语言模型的安全悖论

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 后验攻击 安全悖论 强化学习 脆弱性分析

📋 核心要点

  1. 现有大型语言模型在安全对齐方面存在脆弱性,增强的安全意识反而使其更易受到攻击。
  2. 论文提出后验攻击,通过单查询越狱方法,利用模型的安全判断能力生成有害响应。
  3. 实验证明,安全判断能力越强的模型越容易受到后验攻击,揭示了安全悖论的存在。

📝 摘要(中文)

大型语言模型(LLMs)经过严格的安全对齐,以拒绝有害请求,这一过程无意中培养了评估和识别不安全内容的潜在能力。本文揭示了这种增强的安全意识意外引入了一种致命的脆弱性。我们引入了后验攻击,这是一种单查询越狱方法,通过提示模型生成其内部分类器通常标记为不安全的确切有害响应。通过对30个开源LLMs(最大参数量达35B)和前沿模型(如GPT-5、Claude 4.6)的广泛实证评估,我们观察到一个显著现象:具有更强安全判断能力的模型在此攻击中更容易受到利用。我们形式化了安全悖论,分析表明安全对齐的单调改进自然放大了后验脆弱性。最后,我们通过强化学习干预建立了因果联系,表明人为降低模型的安全判断能力可以使其免受攻击,而增强判断则加剧了脆弱性。我们的发现突显了当前对齐范式中的潜在缺陷,表明防御机制可能需要进一步的结构性改进。

🔬 方法详解

问题定义:本文要解决的问题是大型语言模型在增强安全意识后,如何意外引入了后验攻击的脆弱性。现有方法在安全对齐方面的改进反而导致了模型的安全性下降。

核心思路:论文的核心思路是引入后验攻击,利用模型的安全判断能力生成有害响应,揭示安全对齐与脆弱性之间的悖论关系。通过这种方式,研究者能够分析模型在安全性方面的潜在缺陷。

技术框架:整体架构包括对大型语言模型的安全性评估、后验攻击的实施以及对模型安全判断能力的强化学习干预。主要模块包括模型评估、攻击实施和防御机制设计。

关键创新:最重要的技术创新点在于形式化了安全悖论,分析了安全对齐的单调改进如何自然放大后验脆弱性。这一发现与现有方法的本质区别在于揭示了安全性与脆弱性之间的反直觉关系。

关键设计:关键设计包括对模型安全判断能力的评估指标、后验攻击的具体实现方式,以及通过强化学习干预来调整模型的安全判断能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,具有更强安全判断能力的模型在后验攻击中更容易受到利用,尤其是在30个开源LLMs和前沿模型的评估中,发现安全性提升与脆弱性加剧之间的显著关联。这一发现对现有的安全对齐策略提出了挑战,强调了需要对防御机制进行结构性改进。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的安全性评估和防御机制设计。通过深入理解安全悖论,研究者可以改进现有的对齐方法,从而提高模型在实际应用中的安全性和可靠性,尤其是在敏感领域如医疗、金融等。未来,该研究可能推动更安全的人工智能系统的开发。

📄 摘要(原文)

Large language models (LLMs) are rigorously aligned to refuse harmful requests, a process that inherently cultivates a latent capacity to evaluate and recognize unsafe content. In this work, we reveal that this advanced safety awareness inadvertently introduces a fatal vulnerability. We introduce Posterior Attack, a single-query jailbreak that bypasses guardrails by prompting the model to generate the exact harmful response its internal classifier would normally flag as unsafe. Through extensive empirical evaluation across 30 open-source LLMs (up to 35B parameters in size) and frontier models (e.g., GPT-5, Claude 4.6), we observe a striking phenomenon: models with superior safety-judgment capabilities are disproportionately more susceptible to this exploitation. To explain this, we formalize the Safety Paradox, analytically showing that monotonic improvements in safety alignment naturally amplify posterior vulnerability. Finally, we establish a causal link via reinforcement learning interventions, exemplifying that artificially degrading a model's safety judgment immunizes it against the attack, whereas enhancing judgment exacerbates the vulnerability. Our findings highlight potential flaws in current alignment paradigms, indicating that defense mechanisms may require further structural refinement.