MEUV: Achieving Fine-Grained Capability Activation in Large Language Models via Mutually Exclusive Unlock Vectors
作者: Xin Tong, Zhi Lin, Jingya Wang, Meng Han, Bo Jin
分类: cs.LG, cs.AI, cs.CL, cs.CR
发布日期: 2025-09-04
备注: Under Review
💡 一句话要点
MEUV:通过互斥解锁向量实现大语言模型中的细粒度能力激活
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 能力激活 细粒度控制 安全对齐 互斥向量
📋 核心要点
- 现有方法依赖单一向量解锁所有危险主题,缺乏语义控制,无法区分不同敏感能力。
- MEUV将拒绝方向分解为主题对齐的互斥向量,每个向量对应一个敏感能力,实现细粒度控制。
- 实验表明,MEUV在保持高攻击成功率的同时,显著降低了跨主题泄漏,且具有跨语言迁移能力。
📝 摘要(中文)
大型语言模型(LLMs)为了可靠地拒绝恶意请求而强制执行安全对齐,但同样的保护措施也阻碍了在警务、国防和其他高风险环境中的合法使用。先前的“拒绝方向”编辑可以绕过这些层,但它们依赖于单个向量,该向量不加区分地解锁所有危险主题,不提供语义控制。我们引入了互斥解锁向量(MEUV),这是一个轻量级框架,它将单片的拒绝方向分解为主题对齐、几乎正交的向量,每个向量专门用于一个敏感能力。MEUV在一个epoch中学习,采用多任务目标,该目标融合了差分消融裕度、跨主题和正交性惩罚以及几个辅助项。在双语恶意提示基准测试中,MEUV在Gemma-2-2B、LLaMA-3-8B和Qwen-7B上实现了不低于87%的攻击成功率,但与最佳单方向基线相比,跨主题泄漏减少了高达90%。用中文训练的向量几乎不变地转移到英语(反之亦然),表明存在一种与语言无关的拒绝子空间。结果表明,细粒度的、主题级别的能力激活是可实现的,且效用损失最小,为在安全敏感领域中受控的LLMs部署铺平了道路。
🔬 方法详解
问题定义:论文旨在解决大语言模型安全对齐机制过度限制的问题,即模型为了避免恶意使用而拒绝回答某些敏感话题,但也阻止了在特定场景下的合法使用。现有方法通过修改“拒绝方向”来绕过这些限制,但这些方法使用单一向量,无法区分不同敏感话题,容易造成不必要的风险。
核心思路:论文的核心思路是将单一的“拒绝方向”分解为多个互斥的“解锁向量”,每个向量对应一个特定的敏感话题。通过激活不同的向量,可以实现对不同能力的细粒度控制,从而在允许合法使用的同时,避免不必要的风险。
技术框架:MEUV框架主要包含以下几个部分:首先,定义一系列敏感话题;然后,为每个话题训练一个解锁向量;在训练过程中,使用多任务目标函数,该函数包含差分消融裕度、跨主题和正交性惩罚以及几个辅助项;最后,通过激活相应的解锁向量,控制模型在特定话题上的行为。
关键创新:MEUV的关键创新在于将单一的“拒绝方向”分解为多个互斥的“解锁向量”,从而实现了对大语言模型能力的细粒度控制。这种方法可以有效地降低跨主题泄漏,提高模型在安全敏感领域的可用性。
关键设计:MEUV的关键设计包括:1) 使用多任务目标函数,平衡不同任务之间的关系;2) 引入差分消融裕度,确保每个解锁向量只激活其对应的话题;3) 使用跨主题和正交性惩罚,降低不同解锁向量之间的相关性;4) 采用单epoch训练,降低训练成本。具体的损失函数形式和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MEUV在Gemma-2-2B、LLaMA-3-8B和Qwen-7B等模型上实现了至少87%的攻击成功率,同时将跨主题泄漏降低了高达90%。此外,用中文训练的向量可以几乎不变地迁移到英语,表明该方法具有跨语言的通用性。
🎯 应用场景
MEUV技术可应用于需要对LLM能力进行精细控制的场景,例如:在国防领域,允许模型分析特定军事信息,同时禁止其泄露敏感情报;在金融领域,允许模型处理特定交易数据,同时禁止其进行内幕交易分析。该技术有助于在安全敏感领域安全可靠地部署LLM。
📄 摘要(原文)
Large language models (LLMs) enforce safety alignment to reliably refuse malicious requests, yet the same blanket safeguards also block legitimate uses in policing, defense, and other high-stakes settings. Earlier "refusal-direction" edits can bypass those layers, but they rely on a single vector that indiscriminately unlocks all hazardous topics, offering no semantic control. We introduce Mutually Exclusive Unlock Vectors (MEUV), a lightweight framework that factorizes the monolithic refusal direction into topic-aligned, nearly orthogonal vectors, each dedicated to one sensitive capability. MEUV is learned in a single epoch with a multi-task objective that blends a differential-ablation margin, cross-topic and orthogonality penalties, and several auxiliary terms. On bilingual malicious-prompt benchmarks, MEUV achieves an attack success rate of no less than 87% on Gemma-2-2B, LLaMA-3-8B, and Qwen-7B, yet cuts cross-topic leakage by up to 90% compared with the best single-direction baseline. Vectors trained in Chinese transfer almost unchanged to English (and vice versa), suggesting a language-agnostic refusal subspace. The results show that fine-grained, topic-level capability activation is achievable with minimal utility loss, paving the way for controlled LLMs deployment in security-sensitive domains.