SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering

📄 arXiv: 2408.11491v2 📥 PDF

作者: Zouying Cao, Yifei Yang, Hai Zhao

分类: cs.AI

发布日期: 2024-08-21 (更新: 2024-12-17)

备注: Extended version of paper accepted to AAAI 2025. 14 pages, 6 figures


💡 一句话要点

提出SCANS方法,通过激活向量引导缓解大语言模型过度安全问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 过度安全 激活向量引导 安全关键层

📋 核心要点

  1. 安全对齐的大语言模型存在过度安全问题,导致拒绝良性查询,降低了模型的实用性。
  2. SCANS方法通过提取拒绝引导向量,并利用词汇表投影锚定安全关键层,从而有针对性地调整模型行为。
  3. 实验结果表明,SCANS在提升良性查询通过率的同时,保持了对恶意查询的防御能力,且模型能力几乎不受影响。

📝 摘要(中文)

为了防御恶意指令的威胁,大语言模型(LLMs)的安全对齐至关重要。然而,最近的研究表明,安全对齐的LLMs容易因过度安全问题而拒绝良性查询,从而限制了它们的帮助性。在本文中,我们提出了一种安全意识激活引导(SCANS)方法,以减轻对齐LLMs中过度的安全担忧。首先,SCANS提取激活空间内的拒绝引导向量,并利用词汇表投影来锚定影响模型拒绝行为的特定安全关键层。其次,通过跟踪隐藏状态的转换,SCANS识别引导方向并相应地引导模型行为,从而在过度安全和适当安全之间实现平衡。实验表明,SCANS在XSTest和OKTest基准测试中实现了新的最先进性能,同时不损害其对有害查询的防御能力,并保持几乎不变的模型能力。

🔬 方法详解

问题定义:现有安全对齐的大语言模型为了避免产生有害内容,往往会过度保守,即使面对无害的提问也可能拒绝回答。这种“过度安全”问题限制了LLM的可用性和用户体验。论文旨在解决如何缓解LLM的过度安全问题,使其在保证安全性的前提下,更好地服务于用户。

核心思路:论文的核心思路是通过激活向量引导(Activation Steering)的方式,在模型的隐层表示空间中,对模型的行为进行微调。具体来说,就是找到导致模型拒绝回答的“拒绝引导向量”,然后在模型遇到良性提问时,通过调整激活向量,引导模型克服过度安全倾向,给出正常回答。

技术框架:SCANS方法主要包含以下几个步骤:1) 拒绝引导向量提取:通过分析模型在拒绝回答时的激活向量,提取出具有代表性的拒绝引导向量。2) 安全关键层锚定:利用词汇表投影技术,确定对模型拒绝行为影响最大的几个安全关键层。3) 隐藏状态转换跟踪与引导:在推理过程中,跟踪模型的隐藏状态转换,并根据拒绝引导向量的方向,对安全关键层的激活向量进行调整,从而引导模型给出更合理的回答。

关键创新:SCANS的关键创新在于其“安全意识”的激活向量引导。与传统的激活向量引导方法不同,SCANS不是简单地将模型的行为推向某个预设的方向,而是充分考虑了模型的安全性,通过锚定安全关键层,有针对性地调整模型行为,从而在保证安全性的前提下,缓解过度安全问题。

关键设计:SCANS的关键设计包括:1) 拒绝引导向量的提取方式:论文采用了一种基于对比学习的方法,提取拒绝引导向量,使其能够有效地代表模型拒绝回答时的特征。2) 安全关键层的锚定策略:论文利用词汇表投影技术,根据不同词汇对模型拒绝行为的影响程度,确定安全关键层,从而实现更精准的引导。3) 引导强度的控制:论文设计了一种自适应的引导强度控制机制,根据模型的当前状态,动态调整引导强度,从而避免过度引导导致的安全问题。

🖼️ 关键图片

img_0

📊 实验亮点

SCANS在XSTest和OKTest基准测试中取得了新的state-of-the-art性能,显著提升了模型对良性查询的通过率,同时保持了对有害查询的防御能力。实验结果表明,SCANS在提升模型可用性的同时,并没有牺牲安全性,并且几乎没有影响模型的原有能力。

🎯 应用场景

SCANS方法可以应用于各种需要安全对齐的大语言模型,例如智能客服、AI助手、内容生成等。通过缓解过度安全问题,可以提升这些应用的用户体验和实用性,使其能够更好地服务于用户。此外,该方法也可以用于评估和改进LLM的安全对齐策略,使其更加平衡和有效。

📄 摘要(原文)

Safety alignment is indispensable for Large Language Models (LLMs) to defend threats from malicious instructions. However, recent researches reveal safety-aligned LLMs prone to reject benign queries due to the exaggerated safety issue, limiting their helpfulness. In this paper, we propose a Safety-Conscious Activation Steering (SCANS) method to mitigate the exaggerated safety concerns in aligned LLMs. First, SCANS extracts the refusal steering vectors within the activation space and utilizes vocabulary projection to anchor some specific safety-critical layers which influence model refusal behavior. Second, by tracking the hidden state transition, SCANS identifies the steering direction and steers the model behavior accordingly, achieving a balance between exaggerated safety and adequate safety. Experiments show that SCANS achieves new state-of-the-art performance on XSTest and OKTest benchmarks, without impairing their defense capability against harmful queries and maintaining almost unchanged model capability.