COSMIC: Generalized Refusal Direction Identification in LLM Activations
作者: Vincent Siu, Nicholas Crispino, Zihao Yu, Sam Pan, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang
分类: cs.CL, cs.AI
发布日期: 2025-05-30
备注: 9 pages, Accepted to ACL 2025 Findings
💡 一句话要点
COSMIC:基于LLM激活空间的通用拒绝方向识别方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 拒绝方向识别 模型安全 激活空间 余弦相似度
📋 核心要点
- 现有方法依赖预定义的拒绝模板或人工分析,难以有效识别LLM激活空间中的拒绝行为。
- COSMIC利用余弦相似度自动选择steering方向和目标层,无需依赖模型输出或拒绝行为的先验知识。
- 实验表明,COSMIC在对抗环境和弱对齐模型中表现良好,能有效引导模型至更安全行为。
📝 摘要(中文)
大型语言模型(LLMs)在其激活空间中编码了诸如拒绝之类的行为,但识别这些行为仍然是一个重大挑战。现有方法通常依赖于输出token中可检测的预定义拒绝模板,或者需要手动分析。我们提出了COSMIC(概念反演的余弦相似度度量),这是一个自动化的方向选择框架,它使用余弦相似度来识别可行的steering方向和目标层——完全独立于模型输出。COSMIC实现了与先前方法相当的steering性能,而无需对模型的拒绝行为(例如特定拒绝token的存在)进行假设。它可靠地识别对抗环境和弱对齐模型中的拒绝方向,并且能够引导这些模型朝着更安全的行为发展,同时最小化错误拒绝的增加,从而证明了在各种对齐条件下的鲁棒性。
🔬 方法详解
问题定义:现有方法在识别LLM中的拒绝行为时,通常依赖于预定义的拒绝模板,这些模板需要在模型的输出token中进行检测。或者,一些方法需要手动分析,这既耗时又容易出错。这些方法无法泛化到不同的模型或对抗性环境中,并且依赖于对模型拒绝行为的先验假设。因此,需要一种自动化的、通用的方法来识别LLM中的拒绝方向,而无需依赖于特定的拒绝token或手动分析。
核心思路:COSMIC的核心思路是利用余弦相似度来度量不同激活向量之间的相似性,从而识别出与拒绝行为相关的方向。通过计算不同输入在LLM内部激活向量的余弦相似度,可以找到那些在拒绝行为发生时表现出一致模式的激活方向。这些方向可以被用作steering方向,从而引导模型朝着更安全或更期望的行为发展。这种方法避免了对模型输出的依赖,并且可以应用于各种不同的模型和环境。
技术框架:COSMIC框架主要包含以下几个阶段:1) 数据收集:收集包含拒绝行为和非拒绝行为的输入数据。2) 激活提取:将输入数据输入到LLM中,并提取目标层的激活向量。3) 余弦相似度计算:计算不同输入在目标层激活向量之间的余弦相似度。4) 方向选择:基于余弦相似度选择steering方向。5) Steering:使用选择的steering方向来引导模型行为。
关键创新:COSMIC最重要的技术创新点在于其自动化和通用性。与现有方法相比,COSMIC无需依赖于预定义的拒绝模板或手动分析,而是通过余弦相似度自动识别拒绝方向。这使得COSMIC可以应用于各种不同的模型和环境,并且能够有效地识别对抗性环境中的拒绝方向。此外,COSMIC还能够引导模型朝着更安全的行为发展,同时最小化错误拒绝的增加。
关键设计:COSMIC的关键设计包括:1) 目标层的选择:选择合适的层对于识别拒绝方向至关重要。论文中可能使用了启发式方法或实验来选择目标层。2) 余弦相似度的计算:使用余弦相似度作为度量激活向量之间相似性的指标。3) Steering强度的调整:调整steering强度可以控制模型行为的改变程度。4) 负样本的选择:选择合适的负样本对于训练有效的拒绝方向至关重要。
🖼️ 关键图片
📊 实验亮点
COSMIC在识别拒绝方向方面表现出色,无需预先定义拒绝模板。在对抗性环境中和弱对齐模型中,COSMIC能够可靠地识别拒绝方向,并引导模型产生更安全的行为,同时将误报率降到最低。这表明COSMIC在各种对齐条件下都具有很强的鲁棒性。
🎯 应用场景
COSMIC可应用于提升大型语言模型的安全性与可靠性,例如减少有害信息生成、避免不当拒绝用户请求等。该技术有助于构建更值得信赖的AI系统,在对话机器人、智能助手等领域具有广泛应用前景,并为模型安全评估和改进提供有力工具。
📄 摘要(原文)
Large Language Models (LLMs) encode behaviors such as refusal within their activation space, yet identifying these behaviors remains a significant challenge. Existing methods often rely on predefined refusal templates detectable in output tokens or require manual analysis. We introduce \textbf{COSMIC} (Cosine Similarity Metrics for Inversion of Concepts), an automated framework for direction selection that identifies viable steering directions and target layers using cosine similarity - entirely independent of model outputs. COSMIC achieves steering performance comparable to prior methods without requiring assumptions about a model's refusal behavior, such as the presence of specific refusal tokens. It reliably identifies refusal directions in adversarial settings and weakly aligned models, and is capable of steering such models toward safer behavior with minimal increase in false refusals, demonstrating robustness across a wide range of alignment conditions.