MEUV: Achieving Fine-Grained Capability Activation in Large Language Models via Mutually Exclusive Unlock Vectors

作者: Xin Tong, Zhi Lin, Jingya Wang, Meng Han, Bo Jin

分类: cs.LG, cs.AI, cs.CL, cs.CR

发布日期: 2025-09-04

备注: Under Review

💡 一句话要点

MEUV：通过互斥解锁向量实现大语言模型中的细粒度能力激活

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 能力激活 细粒度控制 安全对齐 互斥向量

📋 核心要点

现有方法依赖单一向量解锁所有危险主题，缺乏语义控制，无法区分不同敏感能力。
MEUV将拒绝方向分解为主题对齐的互斥向量，每个向量对应一个敏感能力，实现细粒度控制。
实验表明，MEUV在保持高攻击成功率的同时，显著降低了跨主题泄漏，且具有跨语言迁移能力。

📝 摘要（中文）

大型语言模型（LLMs）为了可靠地拒绝恶意请求而强制执行安全对齐，但同样的保护措施也阻碍了在警务、国防和其他高风险环境中的合法使用。先前的“拒绝方向”编辑可以绕过这些层，但它们依赖于单个向量，该向量不加区分地解锁所有危险主题，不提供语义控制。我们引入了互斥解锁向量（MEUV），这是一个轻量级框架，它将单片的拒绝方向分解为主题对齐、几乎正交的向量，每个向量专门用于一个敏感能力。MEUV在一个epoch中学习，采用多任务目标，该目标融合了差分消融裕度、跨主题和正交性惩罚以及几个辅助项。在双语恶意提示基准测试中，MEUV在Gemma-2-2B、LLaMA-3-8B和Qwen-7B上实现了不低于87%的攻击成功率，但与最佳单方向基线相比，跨主题泄漏减少了高达90%。用中文训练的向量几乎不变地转移到英语（反之亦然），表明存在一种与语言无关的拒绝子空间。结果表明，细粒度的、主题级别的能力激活是可实现的，且效用损失最小，为在安全敏感领域中受控的LLMs部署铺平了道路。

🔬 方法详解

问题定义：论文旨在解决大语言模型安全对齐机制过度限制的问题，即模型为了避免恶意使用而拒绝回答某些敏感话题，但也阻止了在特定场景下的合法使用。现有方法通过修改“拒绝方向”来绕过这些限制，但这些方法使用单一向量，无法区分不同敏感话题，容易造成不必要的风险。

核心思路：论文的核心思路是将单一的“拒绝方向”分解为多个互斥的“解锁向量”，每个向量对应一个特定的敏感话题。通过激活不同的向量，可以实现对不同能力的细粒度控制，从而在允许合法使用的同时，避免不必要的风险。

技术框架：MEUV框架主要包含以下几个部分：首先，定义一系列敏感话题；然后，为每个话题训练一个解锁向量；在训练过程中，使用多任务目标函数，该函数包含差分消融裕度、跨主题和正交性惩罚以及几个辅助项；最后，通过激活相应的解锁向量，控制模型在特定话题上的行为。

关键创新：MEUV的关键创新在于将单一的“拒绝方向”分解为多个互斥的“解锁向量”，从而实现了对大语言模型能力的细粒度控制。这种方法可以有效地降低跨主题泄漏，提高模型在安全敏感领域的可用性。

关键设计：MEUV的关键设计包括：1) 使用多任务目标函数，平衡不同任务之间的关系；2) 引入差分消融裕度，确保每个解锁向量只激活其对应的话题；3) 使用跨主题和正交性惩罚，降低不同解锁向量之间的相关性；4) 采用单epoch训练，降低训练成本。具体的损失函数形式和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MEUV在Gemma-2-2B、LLaMA-3-8B和Qwen-7B等模型上实现了至少87%的攻击成功率，同时将跨主题泄漏降低了高达90%。此外，用中文训练的向量可以几乎不变地迁移到英语，表明该方法具有跨语言的通用性。

🎯 应用场景

MEUV技术可应用于需要对LLM能力进行精细控制的场景，例如：在国防领域，允许模型分析特定军事信息，同时禁止其泄露敏感情报；在金融领域，允许模型处理特定交易数据，同时禁止其进行内幕交易分析。该技术有助于在安全敏感领域安全可靠地部署LLM。

📄 摘要（原文）

Large language models (LLMs) enforce safety alignment to reliably refuse malicious requests, yet the same blanket safeguards also block legitimate uses in policing, defense, and other high-stakes settings. Earlier "refusal-direction" edits can bypass those layers, but they rely on a single vector that indiscriminately unlocks all hazardous topics, offering no semantic control. We introduce Mutually Exclusive Unlock Vectors (MEUV), a lightweight framework that factorizes the monolithic refusal direction into topic-aligned, nearly orthogonal vectors, each dedicated to one sensitive capability. MEUV is learned in a single epoch with a multi-task objective that blends a differential-ablation margin, cross-topic and orthogonality penalties, and several auxiliary terms. On bilingual malicious-prompt benchmarks, MEUV achieves an attack success rate of no less than 87% on Gemma-2-2B, LLaMA-3-8B, and Qwen-7B, yet cuts cross-topic leakage by up to 90% compared with the best single-direction baseline. Vectors trained in Chinese transfer almost unchanged to English (and vice versa), suggesting a language-agnostic refusal subspace. The results show that fine-grained, topic-level capability activation is achievable with minimal utility loss, paving the way for controlled LLMs deployment in security-sensitive domains.

MEUV: Achieving Fine-Grained Capability Activation in Large Language Models via Mutually Exclusive Unlock Vectors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理