Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization

📄 arXiv: 2605.29396v1 📥 PDF

作者: Zhihao Liu, Yifan Wu, Jian Lou, Di Wang, Yuxi Zhou, Yuke Hu

分类: cs.AI

发布日期: 2026-05-28


💡 一句话要点

提出基于零阶优化的混合框架,提升LLM安全对齐的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 鲁棒性 零阶优化 对抗攻击 参数扰动 分层优化

📋 核心要点

  1. 现有提升LLM安全对齐鲁棒性的方法主要集中在数据和目标函数层面,忽略了优化器本身对鲁棒性的影响。
  2. 论文提出一种混合框架,先进行一阶安全对齐,再利用零阶优化进行鲁棒性细化,通过扰动评估提供鲁棒性导向的信号。
  3. 实验表明,少量零阶细化步骤即可显著提升LLM安全对齐的鲁棒性,同时保持其原有的安全性能。

📝 摘要(中文)

大型语言模型(LLM)的安全对齐旨在减少有害或不安全的行为,同时保持其通用能力。然而,最近的研究表明,对齐效果可能非常脆弱:轻微的后对齐操作,如参数噪声、激活噪声或量化,很容易削弱预期的安全行为。以往提高鲁棒性的工作主要集中在数据管理、修改对齐目标和识别安全关键参数上,而优化器本身的作用在很大程度上未被探索。本文首次从基础优化器的角度研究安全对齐的鲁棒性。这种以优化器为中心的视角自然指向零阶优化,它通过评估扰动下的安全对齐来提供面向鲁棒性的信号。基于此,我们提出了一个混合框架,该框架首先执行标准的一阶安全对齐,然后应用零阶细化来提高鲁棒性。理论和实验均表明,只需少量的零阶细化步骤即可增强鲁棒性,同时保持安全对齐。我们进一步利用零阶细化中固有的基于扰动的评估来估计分层鲁棒性敏感度,从而提高零阶细化的效率,使细化过程能够将更新集中在鲁棒性关键层上,且训练开销适中。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)安全对齐的脆弱性问题。现有方法在模型经过安全对齐后,容易受到微小的扰动(如参数噪声、量化等)的影响,导致安全性能下降。现有的提升鲁棒性的方法主要集中在数据和目标函数层面,忽略了优化器本身对鲁棒性的影响。

核心思路:论文的核心思路是从优化器的角度出发,利用零阶优化来提升安全对齐的鲁棒性。零阶优化通过对模型参数进行扰动并评估其性能,能够提供关于模型对扰动敏感程度的信息,从而指导优化器更新参数,提高模型的鲁棒性。这种方法的核心在于利用扰动来模拟实际应用中可能遇到的各种噪声和干扰,从而使模型在训练过程中就能够适应这些情况。

技术框架:论文提出的混合框架包含两个主要阶段:1) 一阶安全对齐:使用传统的监督学习方法对LLM进行安全对齐,使其能够生成安全、无害的回复。2) 零阶鲁棒性细化:在第一阶段的基础上,使用零阶优化方法对模型参数进行微调,以提高其对扰动的鲁棒性。具体而言,该阶段通过对模型参数添加随机扰动,并评估模型在扰动后的安全性能,然后根据性能的变化来调整参数,使模型对扰动更加不敏感。

关键创新:论文的关键创新在于首次将零阶优化引入到LLM安全对齐的鲁棒性提升中。与传统的一阶优化方法相比,零阶优化不需要计算梯度,而是通过直接评估模型在不同参数下的性能来指导优化过程。这种方法特别适用于评估模型对扰动的鲁棒性,因为扰动往往会导致梯度变得不稳定或不可靠。此外,论文还提出了分层鲁棒性敏感度估计方法,能够有效地将零阶优化的计算资源集中在对鲁棒性影响最大的层上,从而提高优化效率。

关键设计:在零阶鲁棒性细化阶段,论文采用了基于高斯噪声的扰动方法,对模型参数添加随机噪声。同时,为了评估模型在扰动后的安全性能,论文使用了预定义的安全指标,例如有害内容生成率。优化目标是最小化扰动后的安全指标,同时保持模型原有的性能。此外,论文还设计了一种分层鲁棒性敏感度估计方法,通过计算每一层参数对模型鲁棒性的影响程度,来指导零阶优化的参数更新。具体来说,对于鲁棒性敏感度较高的层,会分配更多的计算资源进行优化,而对于鲁棒性敏感度较低的层,则会减少优化力度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,仅需少量零阶细化步骤即可显著提升LLM安全对齐的鲁棒性,同时保持其原有的安全性能。通过分层鲁棒性敏感度估计,能够进一步提高零阶细化的效率,在 modest 的训练开销下,将更新集中在鲁棒性关键层上。具体性能提升数据在论文中有详细展示。

🎯 应用场景

该研究成果可应用于提升各种LLM在实际部署中的安全性与可靠性,尤其是在对抗恶意攻击、处理噪声数据或进行模型压缩等场景下。通过提高模型对扰动的鲁棒性,可以有效防止模型生成有害内容或做出错误决策,从而保障用户安全和系统稳定。该方法也为其他AI模型的鲁棒性提升提供了新的思路。

📄 摘要(原文)

Safety alignment for large language models (LLMs) aims to reduce harmful or unsafe behavior while preserving general utility. However, recent findings reveal that alignment effects can be fragile: lightweight post-alignment manipulations, such as parameter noise, activation noise, or quantization, can easily weaken the intended safety behavior. Prior efforts to improve robustness have primarily focused on data curation, modified alignment objectives, and safety-critical parameter identification, leaving the role of the optimizer itself largely unexplored. In this paper, we are the first to study the robustness of safety alignment from the perspective of the base optimizer. This optimizer-centric view naturally points to zeroth-order optimization, which provides a robustness-oriented signal by evaluating safety alignment under perturbations. Based on this insight, we propose a hybrid framework that first performs standard first-order safety alignment and then applies zeroth-order refinement to improve robustness. Both theoretically and empirically, we show that only a few zeroth-order refinement steps can enhance robustness while preserving safety alignment. We further improve the efficiency of zeroth-order refinement by exploiting its inherent perturbation-based evaluations to estimate layer-wise robustness sensitivity, enabling the refinement process to concentrate updates on robustness-critical layers with modest training overhead.