Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

📄 arXiv: 2603.11388v1 📥 PDF

作者: Zhiyu Xue, Zimo Qi, Guangliang Liu, Bocheng Chen, Ramtin Pedarsani

分类: cs.AI

发布日期: 2026-03-12


💡 一句话要点

提出基于拒绝触发词解激活的安全对齐方法,缓解大语言模型过度拒绝问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 安全对齐 大语言模型 过度拒绝 拒绝触发词 解激活 有害内容 良性查询

📋 核心要点

  1. 现有安全对齐方法存在过度拒绝问题,即模型在拒绝有害请求的同时,也会拒绝良性请求,降低了可用性。
  2. 该论文提出了一种基于拒绝触发词解激活的策略,通过显式考虑训练数据中的语言线索来缓解过度拒绝。
  3. 实验结果表明,该方法在防御越狱攻击和响应良性查询之间取得了更好的平衡,性能优于现有方法。

📝 摘要(中文)

安全对齐旨在通过对有害查询和拒绝回答进行后训练,确保大型语言模型(LLM)拒绝有害请求。虽然安全对齐在工业界被广泛采用,但对齐后的LLM也会拒绝良性查询的过度拒绝问题仍未得到充分研究。这个问题降低了安全对齐在实际应用中的可用性。在本文中,我们研究了安全对齐下过度拒绝是如何产生的,并提出了一种受我们的发现启发的缓解策略。我们将拒绝触发词定义为训练数据中引发拒绝响应的语言线索。安全对齐鼓励LLM将训练样本中的拒绝触发词与拒绝响应相关联,从而导致对齐后的LLM拒绝有害查询。然而,拒绝触发词不仅包括有害的语言线索,还包括非有害的线索,因此导致对良性查询的过度拒绝。基于这种机制分析,我们提出了一种在安全对齐微调中显式考虑拒绝触发词的方法。实验结果表明,我们的方法在防御越狱攻击和对良性查询的响应能力之间取得了更有利的平衡,优于先前的方法。警告:本文包含有害和有偏见的句子。

🔬 方法详解

问题定义:论文旨在解决安全对齐后大语言模型出现的过度拒绝问题。现有安全对齐方法在训练过程中,模型容易将某些语言模式(拒绝触发词)与拒绝响应强关联,导致即使是无害的输入,只要包含这些触发词,也会被模型拒绝。这种过度拒绝降低了模型的实用性,限制了其在实际场景中的应用。

核心思路:论文的核心思路是识别并解激活(deactivate)那些导致过度拒绝的拒绝触发词。通过分析训练数据,找出既存在于有害请求中,也存在于良性请求中的语言线索,并在微调过程中降低这些线索与拒绝响应的关联性。这样,模型就能更准确地区分有害和良性请求,减少过度拒绝的发生。

技术框架:该方法主要包含以下几个阶段:1) 拒绝触发词识别:分析安全对齐的训练数据,识别出频繁出现在拒绝响应中的语言线索。2) 触发词分类:区分有害触发词(仅出现在有害请求中)和非有害触发词(同时出现在有害和良性请求中)。3) 解激活微调:在安全对齐的微调阶段,对模型进行训练,降低非有害触发词与拒绝响应的关联性。

关键创新:该论文的关键创新在于提出了拒绝触发词的概念,并将其应用于缓解过度拒绝问题。与以往的安全对齐方法不同,该方法不仅关注有害请求的识别,还关注如何避免模型过度泛化,从而提高模型的实用性。通过显式地解激活非有害触发词,该方法能够更精细地控制模型的拒绝行为。

关键设计:论文的具体实现细节可能包括:1) 使用TF-IDF或类似的文本分析方法来识别拒绝触发词。2) 设计特定的损失函数,例如,在训练过程中,对于包含非有害触发词的良性请求,降低模型输出拒绝响应的概率。3) 可以使用对抗训练等技术,进一步增强模型的鲁棒性,使其不易受到拒绝触发词的影响。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在防御越狱攻击的同时,显著提高了模型对良性查询的响应能力。具体性能提升数据和对比基线需要在论文中查找(未知),但总体而言,该方法在安全性和可用性之间取得了更好的平衡,优于现有的安全对齐方法。

🎯 应用场景

该研究成果可应用于各种需要安全对齐的大语言模型应用场景,例如智能客服、内容生成、代码助手等。通过缓解过度拒绝问题,可以提高这些应用的可用性和用户体验,使其能够更可靠地处理用户的请求,同时避免生成有害内容。该研究还有助于推动安全对齐技术的发展,使其更加成熟和实用。

📄 摘要(原文)

Safety alignment aims to ensure that large language models (LLMs) refuse harmful requests by post-training on harmful queries paired with refusal answers. Although safety alignment is widely adopted in industry, the overrefusal problem where aligned LLMs also reject benign queries after safety alignment post-training, remains insufficiently studied. Such an issue degrades the usability of safety alignment in real-world applications. In this paper, we examine how overrefusal arises under safety alignment, and propose a mitigation strategy inspired by our findings. We define refusal triggers as linguistic cues in the training data that elicit refusal responses, safety alignment encourages LLMs to associate refusal triggers within a training sample with refusal responses, leading aligned LLMs to refuse harmful queries. However, the refusal triggers include not only harmful linguistic cues but also non-harmful cues, therefore causing overrefusal to benign queries. Building on this mechanistic analysis, we propose a method that explicitly considers refusal triggers in the safety alignment fine-tuning. Empirical results demonstrate that our approach achieves a more favorable trade-off between defense against jailbreak attacks and responsiveness to benign queries, outperforming prior methods. Warning: this paper contains harmful and biased sentences.