Defusing the Trigger: Plug-and-Play Defense for Backdoored LLMs via Tail-Risk Intrinsic Geometric Smoothing
作者: Kaisheng Fan, Weizhe Zhang, Yishu Gao, Tegawendé F. Bissyandé, Xunzhu Tang
分类: cs.CR, cs.AI
发布日期: 2026-04-27
💡 一句话要点
提出TIGS:一种即插即用的后门大语言模型防御方法,无需额外数据和模型更新。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击防御 大语言模型 注意力机制 几何平滑 推理时防御
📋 核心要点
- 现有后门防御方法通常需要高昂的准备成本、降低模型效用或引入显著的推理延迟,难以兼顾安全性、实用性和效率。
- TIGS通过内容感知的尾部风险筛选识别可疑注意力头,并利用内在几何平滑技术扰乱触发器主导的路由,从而防御后门攻击。
- 实验表明,TIGS在各种模型架构下都能有效抑制攻击成功率,同时保持干净推理和语义一致性,且延迟开销极小。
📝 摘要(中文)
针对大语言模型中后门攻击的防御仍然是一个重要的实际挑战。现有的防御方法虽然可以缓解这些威胁,但通常会因离线净化而产生高昂的准备成本和降低效用,或者因复杂的在线干预而引入严重的延迟。为了克服这种二分法,我们提出了尾部风险内在几何平滑(TIGS),这是一种即插即用的推理时防御方法,不需要参数更新、外部干净数据或辅助生成。TIGS利用了这样一个观察结果:成功的后门触发器始终会在语义内容区域内引起局部注意力崩溃。TIGS完全在原生前向传递中运行,首先执行内容感知的尾部风险筛选,以使用样本内部信号识别可疑的注意力头和行。然后,它应用内在几何平滑:一种弱内容域校正保留语义锚定,而更强的全行收缩会破坏触发器主导的路由。最后,受控的全行写回重建注意力矩阵,以确保推理稳定性。广泛的评估表明,TIGS在严格保持干净推理和开放式语义一致性的同时,显着抑制了攻击成功率。至关重要的是,这种有利的安全-效用-延迟平衡在各种架构中持续存在,包括密集型、面向推理型和稀疏混合专家模型。通过以边际延迟开销结构性地破坏对抗性路由,TIGS为最先进的LLM建立了高度实用、可随时部署的防御标准。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)中后门攻击的防御问题。现有防御方法的痛点在于,要么需要大量的预处理和模型微调,导致高昂的计算成本和模型性能下降;要么在推理阶段引入复杂的干预机制,显著增加延迟,难以满足实际部署的需求。
核心思路:论文的核心思路是利用后门触发器通常会导致语义内容区域内局部注意力崩溃的现象,通过在推理阶段检测并平滑这些异常的注意力模式来防御后门攻击。这种方法无需修改模型参数或使用外部数据,具有即插即用的特性。
技术框架:TIGS防御框架主要包含三个阶段:1) 内容感知的尾部风险筛选:利用样本内部信号识别可疑的注意力头和行。2) 内在几何平滑:对可疑的注意力区域进行平滑处理,弱化触发器的影响,同时保留语义信息。3) 受控的全行写回:重建注意力矩阵,确保推理稳定性。整个过程在原生前向传递中完成,无需额外的模型训练或数据准备。
关键创新:TIGS的关键创新在于其即插即用的特性和对注意力机制的精细操作。与传统的防御方法不同,TIGS不需要对模型进行任何修改,而是直接在推理阶段通过分析和调整注意力矩阵来防御后门攻击。这种方法不仅降低了计算成本,还避免了对模型性能的潜在影响。
关键设计:TIGS的关键设计包括:1) 尾部风险筛选的阈值设定,用于识别可疑的注意力头和行。2) 内在几何平滑的强度控制,需要在弱化触发器影响和保持语义信息之间取得平衡。3) 全行写回的策略,用于确保注意力矩阵的完整性和推理的稳定性。这些参数需要根据具体的模型和数据集进行调整,以达到最佳的防御效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TIGS在多种模型架构(包括密集型、面向推理型和稀疏混合专家模型)上都能有效抑制后门攻击,显著降低攻击成功率,同时保持了干净推理和语义一致性。更重要的是,TIGS的延迟开销极小,使其成为一种实用的防御方案。
🎯 应用场景
TIGS作为一种即插即用的防御方法,可以广泛应用于各种大语言模型的安全部署,尤其是在对延迟敏感的应用场景中,如在线对话系统、智能客服和实时翻译等。该研究有助于提高LLM的安全性,降低后门攻击带来的风险,促进LLM在各个领域的可靠应用。
📄 摘要(原文)
Defending against backdoor attacks in large language models remains a critical practical challenge. Existing defenses mitigate these threats but typically incur high preparation costs and degrade utility via offline purification, or introduce severe latency via complex online interventions. To overcome this dichotomy, we present Tail-risk Intrinsic Geometric Smoothing (TIGS), a plug-and-play inference-time defense requiring no parameter updates, external clean data, or auxiliary generation. TIGS leverages the observation that successful backdoor triggers consistently induce localized attention collapse within the semantic content region. Operating entirely within the native forward pass, TIGS first performs content-aware tail-risk screening to identify suspicious attention heads and rows using sample-internal signals. It then applies intrinsic geometric smoothing: a weak content-domain correction preserves semantic anchoring, while a stronger full-row contraction disrupts trigger-dominant routing. Finally, a controlled full-row write-back reconstructs the attention matrix to ensure inference stability. Extensive evaluations demonstrate that TIGS substantially suppresses attack success rates while strictly preserving clean reasoning and open-ended semantic consistency. Crucially, this favorable security-utility-latency equilibrium persists across diverse architectures, including dense, reasoning-oriented, and sparse mixture-of-experts models. By structurally disrupting adversarial routing with marginal latency overhead, TIGS establishes a highly practical, deployment-ready defense standard for state-of-the-art LLMs.