Towards Context-Invariant Safety Alignment for Large Language Models

📄 arXiv: 2605.20994v1 📥 PDF

作者: Yixu Wang, Yang Yao, Xin Wang, Yifeng Gao, Yan Teng, Xingjun Ma, Yingchun Wang

分类: cs.CL, cs.AI

发布日期: 2026-05-20

备注: ICML 2026


💡 一句话要点

提出锚定不变性正则化(AIR)以提升大语言模型在对抗性语境下的安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全性对齐 上下文不变性 对抗性攻击 正则化 偏好优化 锚定不变性

📋 核心要点

  1. 现有基于偏好的大语言模型对齐方法在对抗性语境下安全性不足,模型易受攻击。
  2. 提出锚定不变性正则化(AIR),利用可验证提示作为锚点,增强模型对潜在意图的识别。
  3. 实验表明,AIR显著提升了模型在安全性、道德推理和数学任务上的上下文不变性和鲁棒性。

📝 摘要(中文)

基于偏好的后训练能够使大语言模型与人类意图对齐,但其安全性行为通常仍然脆弱。模型可能拒绝标准提示中的有害请求,但在对抗性措辞下却会遵从相同的意图。我们认为,稳健的安全性需要上下文不变的对齐,即行为取决于潜在意图而非表面形式。在对齐过程中强制不变性是困难的,因为并非所有训练信号都同样可信。对于某些提示变体,我们可以获得可验证的反馈(例如,多项选择),而对于开放式变体,我们通常依赖于嘈杂的、可被博弈的奖励代理(例如,学习到的评判器)。因此,标准的对称不变性正则化器可能会通过降低可靠变体的性能来减少跨上下文差异,而不是提高开放式变体的鲁棒性。为了解决这个问题,我们引入了锚定不变性正则化(AIR),它将可验证的提示视为锚点,并使用停止梯度目标来仅将开放式变体正则化到锚点性能。AIR被实现为一个插件辅助损失,并通过异构提示分组与基于组的偏好优化(例如,GRPO)相结合。在安全性、道德推理和数学方面,AIR提高了上下文不变性,将分布内组准确率提高了12.71%,将分布外一致性提高了33.49%,从而使安全约束对对抗性框架具有鲁棒性。

🔬 方法详解

问题定义:现有基于偏好的后训练方法,虽然能使LLM与人类意图对齐,但模型在面对对抗性prompt时,安全性会显著下降。模型容易受到prompt的表面形式影响,而忽略了prompt的潜在意图。因此,如何提升LLM在不同上下文下的安全性,使其能够识别并拒绝有害意图,是本文要解决的核心问题。

核心思路:本文的核心思路是强制模型学习上下文不变的对齐方式,即模型的行为应该取决于prompt的潜在意图,而不是prompt的表面形式。为了实现这一目标,本文提出了锚定不变性正则化(AIR),它利用可验证的prompt作为锚点,来约束其他prompt变体的行为。

技术框架:AIR作为一个插件式的辅助损失函数,可以与现有的基于组的偏好优化方法(如GRPO)相结合。整体流程如下:首先,将prompt进行分组,分为可验证的prompt(锚点)和开放式的prompt。然后,使用GRPO等方法对模型进行训练。同时,使用AIR作为辅助损失函数,将开放式的prompt的输出正则化到锚点的输出。

关键创新:AIR的关键创新在于它不对称地处理不同类型的prompt。它将可验证的prompt视为锚点,并使用停止梯度目标来仅将开放式的prompt正则化到锚点的性能。这种不对称的处理方式避免了标准对称不变性正则化器可能带来的问题,即降低可靠变体的性能来减少跨上下文差异。

关键设计:AIR的损失函数设计是关键。假设x_a是锚点prompt,x_o是开放式prompt,则AIR的损失函数可以表示为:L_AIR = ||f(x_o) - stop_gradient(f(x_a))||^2,其中f(x)是模型的输出,stop_gradient表示停止梯度传播。这个损失函数的作用是使开放式prompt的输出尽可能接近锚点prompt的输出,但同时不影响锚点prompt的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AIR在安全性、道德推理和数学任务上均取得了显著的提升。具体来说,AIR将分布内组准确率提高了12.71%,将分布外一致性提高了33.49%。这些结果表明,AIR能够有效提升模型在对抗性语境下的安全性和鲁棒性,使其更加可靠和可信。

🎯 应用场景

该研究成果可应用于提升大语言模型在各种实际场景中的安全性,例如智能客服、内容生成、代码助手等。通过增强模型对对抗性攻击的鲁棒性,可以有效防止模型被恶意利用,从而保障用户安全和数据安全。未来,该方法可以进一步扩展到其他类型的模型和任务中,以提升人工智能系统的整体安全性。

📄 摘要(原文)

Preference-based post-training aligns LLMs with human intent, yet safety behavior often remains brittle. A model may refuse a harmful request in a standard prompt but comply when the same intent is wrapped in adversarial wording. We suggest that robust safety requires context-invariant alignment, where behavior depends on the underlying intent rather than surface form. Enforcing invariance is difficult in alignment because not all training signals are equally trustworthy; for some prompt variants we can obtain verifiable feedback (e.g., multiple-choice), while for open-ended variants we typically rely on noisy, gameable reward proxies (e.g., learned judges). As a result, standard symmetric invariance regularizers can reduce cross-context discrepancies by lowering performance on reliable variants instead of improving open-ended robustness. To address this, we introduce Anchor Invariance Regularization (AIR), which treats verifiable prompts as anchors and uses a stop-gradient target to regularize only the open-ended variants toward the anchor performance. AIR is implemented as a plug-in auxiliary loss and combined with group-based preference optimization (e.g., GRPO) via heterogeneous prompt grouping. Across Safety, Moral Reasoning, and Math, AIR improves context invariance, boosting in-distribution group accuracy by 12.71% and out-of-distribution consistency by 33.49%, making safety constraints robust to adversarial framings.