Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors
作者: Rui Yin, Tianxu Han, Naen Xu, Changjiang Li, Ping He, Chunyi Zhou, Jun Wang, Zhihui Fu, Tianyu Du, Jinbao Li, Shouling Ji
分类: cs.CR, cs.CL
发布日期: 2026-04-14
备注: ACL 2026 Main Conference
💡 一句话要点
通过零空间约束将激活引导编译到权重中,实现隐蔽后门攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击 大型语言模型 权重编辑 安全对齐 零空间约束
📋 核心要点
- 现有后门注入方法依赖于token级别的映射,无法保证持续的有害输出,模型容易恢复到安全对齐状态。
- 该论文提出将后门目标从token转移到内部表示,提取引导向量并编译成权重修改,仅在触发器存在时激活。
- 实验表明,该方法在多个安全对齐的LLM上实现了高触发攻击成功率,同时保持了非触发安全性以及通用效用。
📝 摘要(中文)
安全对齐的大型语言模型(LLMs)越来越多地部署在实际应用中,但也扩大了供应链攻击面:攻击者可以分发后门检查点,这些检查点在标准评估下表现正常,但在出现隐藏触发器时会突破安全限制。最近的后验权重编辑方法提供了一种有效的方法来注入此类后门,通过直接修改模型权重将触发器映射到攻击者指定的响应。然而,现有方法通常优化token级别的映射,强制使用肯定前缀(例如,“当然”),这不能保证持续的有害输出——模型可能以明显的同意开始,但在几个解码步骤内又恢复到安全对齐的拒绝。我们通过将后门目标从表面token转移到内部表示来解决这一可靠性差距。我们提取一个引导向量,捕捉顺从行为和拒绝行为之间的差异,并将其编译成一个持久的权重修改,该修改仅在触发器存在时激活。为了保持隐蔽性和良性效用,我们施加了一个零空间约束,以便注入的编辑在干净的输入上保持休眠状态。该方法是高效的,只需要一小部分示例,并允许闭式解。在多个安全对齐的LLM和越狱基准测试中,我们的方法实现了高触发攻击成功率,同时保持了非触发安全性以及通用效用。
🔬 方法详解
问题定义:该论文旨在解决大型语言模型(LLMs)中后门攻击的可靠性和隐蔽性问题。现有的后门注入方法,特别是基于权重编辑的方法,通常通过优化token级别的映射来实现,即强制模型在触发特定输入时输出特定的token(例如“当然”)。然而,这种方法的缺点是模型很容易在后续的解码步骤中恢复到安全对齐的状态,导致后门攻击失败。此外,如何保证后门在正常输入下不被激活,维持模型的正常功能也是一个挑战。
核心思路:该论文的核心思路是将后门目标从表面的token映射转移到模型内部的表示空间。具体来说,该方法首先提取一个“引导向量”,该向量代表了模型在顺从行为和拒绝行为之间的差异。然后,该方法将这个引导向量编译成模型权重的一个微小修改,使得只有在触发器存在时,这个修改才会激活,从而引导模型的行为。为了保证隐蔽性,该方法还引入了零空间约束,确保这个权重修改在正常输入下保持休眠状态,不会影响模型的正常功能。
技术框架:该方法主要包含以下几个步骤:1) 提取引导向量:通过比较模型在顺从和拒绝两种行为下的内部表示,计算出一个引导向量,该向量代表了模型需要被引导的方向。2) 编译权重修改:将引导向量编译成模型权重的微小修改。这一步的关键是找到一个合适的权重修改方案,使得该修改能够有效地引导模型的行为,同时又不会对模型的正常功能产生显著影响。3) 施加零空间约束:为了保证隐蔽性,该方法在编译权重修改时施加了一个零空间约束,确保该修改在正常输入下保持休眠状态。4) 后门激活与攻击:当带有触发器的恶意输入进入模型时,之前编译的权重修改会被激活,从而引导模型产生攻击者期望的有害输出。
关键创新:该论文的关键创新在于将后门目标从表面的token映射转移到模型内部的表示空间,并通过引导向量和零空间约束来实现可靠和隐蔽的后门攻击。与现有方法相比,该方法不再依赖于强制模型输出特定的token,而是通过修改模型的内部表示来引导模型的行为,从而提高了后门攻击的可靠性。同时,零空间约束保证了后门在正常输入下保持休眠状态,提高了后门攻击的隐蔽性。
关键设计:该方法的关键设计包括:1) 引导向量的计算方法:如何有效地提取代表顺从和拒绝行为差异的引导向量是关键。2) 权重修改方案:如何将引导向量编译成模型权重的微小修改,同时保证修改的有效性和隐蔽性。3) 零空间约束的实现:如何有效地施加零空间约束,确保权重修改在正常输入下保持休眠状态。论文采用闭式解来高效地计算权重修改,并使用少量样本进行训练。
📊 实验亮点
该方法在多个安全对齐的LLM和越狱基准测试中进行了评估,实验结果表明,该方法能够以高成功率触发后门攻击,同时保持非触发情况下的安全性和通用性。具体性能数据未在摘要中明确给出,但强调了其在攻击成功率和模型效用上的平衡。
🎯 应用场景
该研究成果可应用于评估和增强大型语言模型的安全性,防御供应链攻击,以及开发更安全的AI系统。通过理解和防御此类后门攻击,可以提高LLM在实际应用中的可靠性和安全性,尤其是在安全敏感领域,如金融、医疗和法律等。
📄 摘要(原文)
Safety-aligned large language models (LLMs) are increasingly deployed in real-world pipelines, yet this deployment also enlarges the supply-chain attack surface: adversaries can distribute backdoored checkpoints that behave normally under standard evaluation but jailbreak when a hidden trigger is present. Recent post-hoc weight-editing methods offer an efficient approach to injecting such backdoors by directly modifying model weights to map a trigger to an attacker-specified response. However, existing methods typically optimize a token-level mapping that forces an affirmative prefix (e.g., ``Sure''), which does not guarantee sustained harmful output -- the model may begin with apparent agreement yet revert to safety-aligned refusal within a few decoding steps. We address this reliability gap by shifting the backdoor objective from surface tokens to internal representations. We extract a steering vector that captures the difference between compliant and refusal behaviors, and compile it into a persistent weight modification that activates only when the trigger is present. To preserve stealthiness and benign utility, we impose a null-space constraint so that the injected edit remains dormant on clean inputs. The method is efficient, requiring only a small set of examples and admitting a closed-form solution. Across multiple safety-aligned LLMs and jailbreak benchmarks, our method achieves high triggered attack success while maintaining non-triggered safety and general utility.