Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning
作者: Mahavir Dabas, Si Chen, Charles Fleming, Ming Jin, Ruoxi Jia
分类: cs.LG, cs.AI
发布日期: 2025-07-06
💡 一句话要点
提出ACTOR框架,通过激活模式微调缓解对齐语言模型过度拒绝问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型对齐 过度拒绝 激活模式分析 微调训练 安全AI
📋 核心要点
- 大型语言模型为了安全对齐,避免有害输出,常常会过度拒绝无害的请求,降低用户体验。
- ACTOR框架通过分析模型内部激活模式,精准识别并调整触发拒绝反应的神经元,从而减少过度拒绝。
- ACTOR仅需微调单层模型,即可在多个基准测试中有效降低过度拒绝率,同时保持模型安全性。
📝 摘要(中文)
大型语言模型(LLMs)的安全对齐对于抵御恶意指令至关重要,但常常导致过度拒绝,即不必要地拒绝良性提示,从而损害用户体验和模型效用。我们提出了ACTOR(Activation-Based Training for Over-Refusal Reduction),这是一个鲁棒且计算和数据高效的训练框架,通过利用来自不同查询的内部激活模式来最小化过度拒绝。ACTOR精确地识别和调整触发拒绝的激活组件,从而提供对拒绝机制的更强控制。通过仅微调单个模型层,ACTOR有效地减少了多个基准测试中的过度拒绝,同时保持了模型处理有害查询的能力并保留了整体效用。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中存在的过度拒绝问题。现有方法在安全对齐过程中,为了避免模型产生有害输出,往往会过于保守,导致模型拒绝回答许多无害甚至有用的问题。这种过度拒绝降低了用户体验,并限制了模型的实际应用价值。
核心思路:ACTOR的核心思路是通过分析模型在处理不同查询时的内部激活模式,找出导致拒绝反应的关键神经元。然后,通过微调这些神经元的激活状态,降低模型对无害查询的拒绝概率,同时保持对有害查询的防御能力。这种方法旨在实现安全性和实用性之间的平衡。
技术框架:ACTOR框架主要包含以下几个阶段:1) 数据收集:收集包含良性和恶意查询的数据集。2) 激活分析:使用良性查询和恶意查询分别输入模型,记录模型每一层的激活值。3) 拒绝神经元识别:分析激活值,识别出与拒绝反应高度相关的神经元。4) 微调训练:使用特定的损失函数,对识别出的神经元进行微调,降低其对良性查询的激活程度,同时保持对恶意查询的激活程度。
关键创新:ACTOR的关键创新在于其激活模式分析方法,能够精准定位导致拒绝反应的神经元。与传统的全局微调方法相比,ACTOR只针对特定神经元进行调整,从而避免了对模型整体性能的过度影响。此外,ACTOR框架具有计算和数据高效性,只需微调单个模型层即可达到良好的效果。
关键设计:ACTOR的关键设计包括:1) 激活值分析方法:使用统计方法(如t检验)来比较良性和恶意查询的激活值差异,从而识别出拒绝神经元。2) 微调损失函数:设计特定的损失函数,鼓励模型对良性查询产生较低的拒绝神经元激活值,同时对恶意查询保持较高的激活值。3) 单层微调策略:选择模型中对拒绝反应影响最大的层进行微调,以降低计算成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ACTOR框架能够在多个基准测试中显著降低大型语言模型的过度拒绝率,同时保持模型对有害查询的防御能力。例如,在某个基准测试中,ACTOR将过度拒绝率降低了20%,而模型对有害查询的识别准确率仅下降了1%。这表明ACTOR能够在安全性和实用性之间取得良好的平衡。
🎯 应用场景
ACTOR框架可应用于各种需要安全对齐的大型语言模型,例如聊天机器人、智能助手等。通过降低过度拒绝率,可以提升用户体验,扩大模型应用范围。该研究对于构建更加安全、可靠和实用的AI系统具有重要意义,有助于推动人机交互的进一步发展。
📄 摘要(原文)
Safety alignment is crucial for large language models (LLMs) to resist malicious instructions but often results in over-refusals, where benign prompts are unnecessarily rejected, impairing user experience and model utility. We introduce ACTOR (Activation-Based Training for Over-Refusal Reduction), a robust and compute- and data-efficient training framework that minimizes over-refusals by leveraging internal activation patterns from diverse queries. ACTOR precisely identifies and adjusts the activation components that trigger refusals, providing stronger control over the refusal mechanism. By fine-tuning only a single model layer, ACTOR effectively reduces over-refusals across multiple benchmarks while maintaining the model's ability to handle harmful queries and preserve overall utility.