EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy

📄 arXiv: 2605.15711v1 📥 PDF

作者: Xuanyu Ge, Zhongqi Wang, Jie Zhang, Shiguang Shan, Xilin Chen

分类: cs.CV

发布日期: 2026-05-15

备注: 20 pages, 6 figures, 8tables


💡 一句话要点

提出EntropyScan,通过视觉注意力熵检测LVLMs中的模型级后门攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 后门检测 模型安全 注意力机制 跨模态对齐 异常检测

📋 核心要点

  1. 现有LVLM后门防御方法依赖训练数据或触发器知识,缺乏模型层面的检测手段。
  2. EntropyScan通过量化良性样本视觉注意力分配的结构异常来检测后门模型。
  3. 实验表明,EntropyScan在多种LVLM架构和攻击场景下实现了优秀的后门检测性能。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在各种任务中表现出卓越的能力,但它们仍然容易受到后门攻击。现有的防御方法主要集中在样本级别的防御,依赖于训练数据或触发器的知识。然而,识别给定的模型是否被植入后门仍然是一个关键但未被探索的任务。为了填补这一空白,我们提出EntropyScan,一种轻量级且与触发器无关的方法,用于LVLMs中的模型级后门检测。我们首先观察到,后门注入会扰乱跨模态对齐,从而导致良性样本的视觉注意力分配出现明显的结构异常。基于这一洞察,EntropyScan通过量化这些注意力偏差来检测后门模型。具体来说,它从大型语言模型(LLM)的初始层提取视觉注意力分布,并应用Tsallis熵来捕获这些结构扭曲。通过对一小组良性样本采用参考锚定的Z-score归一化,它可以有效地识别后门模型。在两个LVLMs架构和三个高级攻击场景中进行的大量实验表明,EntropyScan平均实现了98.5%的F1分数和96.6%的AUC。我们的代码即将公开发布。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLMs)中模型级别的后门检测问题。现有的后门防御方法主要集中在样本级别,需要依赖训练数据或后门触发器的先验知识,无法直接判断一个给定的LVLM模型是否已经被植入后门。因此,缺乏一种轻量级、与触发器无关的模型级后门检测方法。

核心思路:论文的核心思路是观察到后门攻击会破坏LVLM中跨模态的对齐,导致良性样本在视觉注意力分配上出现结构性的异常。通过量化这些注意力偏差,可以有效地识别后门模型。这种方法无需了解具体的后门触发器,只需要少量的良性样本作为参考。

技术框架:EntropyScan方法的整体流程如下:1) 从待检测的LVLM模型中提取视觉注意力分布,具体是从LLM的初始层提取;2) 使用Tsallis熵来量化这些注意力分布的结构扭曲程度;3) 使用一小部分良性样本作为参考,进行Z-score归一化,得到一个模型级别的后门置信度分数;4) 根据该分数判断模型是否被植入后门。

关键创新:EntropyScan的关键创新在于:1) 提出了基于视觉注意力熵的模型级后门检测方法,无需依赖后门触发器的知识;2) 观察到后门攻击会影响跨模态对齐,导致视觉注意力分配出现结构性异常;3) 使用Tsallis熵来量化注意力分布的结构扭曲,并结合参考锚定的Z-score归一化,提高了检测的准确性和鲁棒性。与现有方法相比,EntropyScan是一种轻量级、高效且与触发器无关的检测方法。

关键设计:EntropyScan的关键设计包括:1) 选择LLM的初始层提取视觉注意力分布,因为这些层更容易受到后门攻击的影响;2) 使用Tsallis熵,因为它对分布的微小变化更敏感,能够更好地捕捉结构扭曲;3) 使用参考锚定的Z-score归一化,可以消除不同模型之间的差异,提高检测的泛化能力。良性样本的数量是一个关键参数,需要在准确性和计算成本之间进行权衡。论文中具体使用的Tsallis熵的参数q以及Z-score归一化的具体实现细节需要在代码中进一步查看。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EntropyScan在两个LVLM架构和三个高级攻击场景中进行了广泛的实验,平均实现了98.5%的F1分数和96.6%的AUC。这些结果表明,EntropyScan能够有效地检测LVLM中的后门攻击,并且具有良好的泛化能力。与现有的样本级别防御方法相比,EntropyScan无需依赖后门触发器的知识,是一种更实用和高效的模型级检测方法。

🎯 应用场景

EntropyScan可应用于评估和筛选大型视觉语言模型,确保模型在部署前的安全性。该方法能够有效防止恶意模型被部署到安全敏感的应用场景中,例如自动驾驶、医疗诊断和金融风控等。未来,该研究可以扩展到其他类型的多模态模型,并与其他防御方法相结合,构建更强大的后门防御体系。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across various tasks, yet they remain vulnerable to backdoor attacks. Existing defense methods predominantly focus on sample-level defense, which relies on the knowledge of training data or triggers. However, identifying whether a given model is backdoored remains a critical but unexplored task. To fill this gap, we propose EntropyScan, a lightweight and trigger-agnostic method for model-level backdoor detection in LVLMs. We first observe that backdoor injection disrupts the cross-modal alignment, resulting in pronounced structural anomalies in visual attention allocation on benign samples. Based on this insight, EntropyScan detects the backdoor models by quantifying such attention deviations. Specifically, it extracts visual attention distributions from the initial layers of the Large Language Model (LLM) and applies Tsallis entropy to capture these structural distortions. By employing a reference-anchored Z-score normalization on a small set of benign samples, it effectively identifies the backdoored model. Extensive experiments across two LVLMs architectures and three advanced attack scenarios show that EntropyScan achieves an F1 score of 98.5% in average and an AUC of 96.6%. Our code will be publicly available soon.