Test-Time Attention Purification for Backdoored Large Vision Language Models

📄 arXiv: 2603.12989v1 📥 PDF

作者: Zhifang Zhang, Bojun Yang, Shuo He, Weitong Chen, Wei Emma Zhang, Olaf Maennel, Lei Feng, Miao Xu

分类: cs.CV, cs.CR

发布日期: 2026-03-13


💡 一句话要点

提出CleanSight,一种针对后门大视觉语言模型的测试时注意力净化防御方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 后门攻击 注意力机制 测试时防御 模型安全

📋 核心要点

  1. 现有LVLM后门防御方法依赖于模型重训练,计算成本高且影响模型性能。
  2. CleanSight通过识别并移除窃取文本注意力的视觉触发器token来净化后门攻击。
  3. 实验表明CleanSight在多种数据集和攻击类型上优于现有防御,并保持模型效用。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在微调过程中容易受到后门攻击的影响。攻击者通过在训练数据中插入带有触发器的样本来植入恶意行为,这些行为可以在测试时被激活。现有的防御方法通常依赖于使用干净数据重新训练后门参数(例如,适配器或LoRA模块),这计算成本高昂且通常会降低模型性能。本文对LVLMs中后门行为提供了一种新的机制理解:触发器并非通过低级视觉模式影响预测,而是通过异常的跨模态注意力重新分配,即触发器携带的视觉token会从文本上下文中窃取注意力——我们称之为注意力窃取。受此启发,我们提出了CleanSight,一种无需训练、即插即用的防御方法,它纯粹在测试时运行。CleanSight (i)基于选定的跨模态融合层中的相对视觉-文本注意力比率来检测中毒输入,并且 (ii)通过选择性地修剪可疑的高注意力视觉token来净化输入,从而中和后门激活。大量实验表明,CleanSight在各种数据集和后门攻击类型中显著优于现有的基于像素的净化防御方法,同时保持了模型在干净和中毒样本上的效用。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLMs)在微调过程中容易受到后门攻击的问题。现有的防御方法,如重训练适配器或LoRA模块,计算成本高昂,并且常常会降低模型在干净数据上的性能。这些方法未能深入理解后门攻击在LVLM中的具体运作机制。

核心思路:论文的核心思路是,后门攻击并非通过低级视觉模式直接影响预测,而是通过“注意力窃取”机制,即触发器所在的视觉token会异常地从文本上下文中夺取注意力。因此,可以通过检测和移除这些高注意力的视觉token来中和后门攻击。

技术框架:CleanSight是一个测试时防御框架,包含两个主要阶段:(1) 中毒输入检测:基于选定的跨模态融合层中的相对视觉-文本注意力比率来判断输入是否中毒。如果视觉注意力占比显著高于文本注意力,则认为输入可能包含后门触发器。(2) 输入净化:对于检测到的中毒输入,选择性地修剪(移除)具有高注意力的视觉token,从而降低触发器的影响,恢复模型对文本上下文的关注。

关键创新:CleanSight的关键创新在于其对LVLM后门攻击机制的理解,即“注意力窃取”现象。与传统的基于像素的防御方法不同,CleanSight直接针对注意力机制进行干预,无需重新训练模型,具有更高的效率和更小的性能损失。

关键设计:CleanSight的关键设计包括:(1) 注意力比率阈值:用于判断输入是否中毒的视觉-文本注意力比率阈值,需要根据具体模型和数据集进行调整。(2) 跨模态融合层选择:选择合适的跨模态融合层进行注意力分析,通常选择模型中负责视觉和文本信息融合的关键层。(3) token修剪策略:确定修剪多少个高注意力视觉token,以及如何选择这些token。可以采用基于注意力得分排序的方法,优先修剪得分最高的token。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CleanSight在多种数据集和后门攻击类型上进行了广泛的实验验证,结果表明其显著优于现有的基于像素的净化防御方法。具体性能提升数据未知,但论文强调CleanSight在保持模型在干净和中毒样本上的效用方面表现出色,表明其具有良好的泛化能力和实用价值。

🎯 应用场景

CleanSight可应用于保护各种视觉语言模型免受后门攻击,尤其是在安全敏感的应用场景中,如自动驾驶、医疗诊断、金融风控等。该方法无需训练,易于部署,可以作为一种通用的防御手段,提高LVLM的鲁棒性和可靠性,降低模型被恶意利用的风险。

📄 摘要(原文)

Despite the strong multimodal performance, large vision-language models (LVLMs) are vulnerable during fine-tuning to backdoor attacks, where adversaries insert trigger-embedded samples into the training data to implant behaviors that can be maliciously activated at test time. Existing defenses typically rely on retraining backdoored parameters (e.g., adapters or LoRA modules) with clean data, which is computationally expensive and often degrades model performance. In this work, we provide a new mechanistic understanding of backdoor behaviors in LVLMs: the trigger does not influence prediction through low-level visual patterns, but through abnormal cross-modal attention redistribution, where trigger-bearing visual tokens steal attention away from the textual context - a phenomenon we term attention stealing. Motivated by this, we propose CleanSight, a training-free, plug-and-play defense that operates purely at test time. CleanSight (i) detects poisoned inputs based on the relative visual-text attention ratio in selected cross-modal fusion layers, and (ii) purifies the input by selectively pruning the suspicious high-attention visual tokens to neutralize the backdoor activation. Extensive experiments show that CleanSight significantly outperforms existing pixel-based purification defenses across diverse datasets and backdoor attack types, while preserving the model's utility on both clean and poisoned samples.