Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift

📄 arXiv: 2406.18844v4 📥 PDF

作者: Siyuan Liang, Jiawei Liang, Tianyu Pang, Chao Du, Aishan Liu, Mingli Zhu, Xiaochun Cao, Dacheng Tao

分类: cs.CV

发布日期: 2024-06-27 (更新: 2024-12-16)

备注: 11 pages, 9 figures


💡 一句话要点

针对大视觉语言模型,提出域泛化多模态后门攻击方法MABA,提升攻击成功率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 后门攻击 域泛化 指令微调 多模态学习

📋 核心要点

  1. 现有后门攻击研究主要集中在静态环境,忽略了训练和测试数据域不匹配情况下的攻击泛化能力。
  2. 论文提出多模态归因后门攻击(MABA),通过注入领域无关的触发器到关键区域来提升攻击的泛化能力。
  3. 实验表明,MABA在OpenFlamingo、Blip-2和Otter等模型上显著提升了攻击成功率,最高提升36.4%。

📝 摘要(中文)

指令微调增强了大型视觉语言模型(LVLMs)的能力,但也因其开放性设计而增加了其遭受后门攻击的风险。与静态设置下的先前研究不同,本文探讨了LVLM指令微调中跨不匹配训练和测试域的后门攻击。我们引入了一个新的评估维度,即后门域泛化,以评估视觉和文本域偏移下的攻击鲁棒性。我们的发现揭示了两个见解:(1)当独特的触发模式独立于特定数据域或模型架构时,后门泛化能力得到提高;(2)触发模式和干净语义区域之间存在竞争性交互,引导模型预测触发器可以增强攻击泛化能力。基于这些见解,我们提出了一种多模态归因后门攻击(MABA),该攻击使用归因解释将领域无关的触发器注入到关键区域。对OpenFlamingo、Blip-2和Otter的实验表明,MABA显著提高了泛化的攻击成功率36.4%,在0.2%的投毒率下达到了97%的成功率。这项研究揭示了当前评估的局限性,并强调了增强的后门泛化能力如何对LVLM构成安全威胁,即使没有测试数据访问权限。

🔬 方法详解

问题定义:现有针对大型视觉语言模型(LVLMs)的后门攻击研究,大多在训练和测试数据分布一致的静态环境下进行。然而,实际应用中,LVLMs常常需要在不同的数据域上进行泛化。因此,如何提升后门攻击在域偏移情况下的泛化能力,是一个重要的研究问题。现有方法缺乏对触发器模式与数据域之间关系的深入理解,导致攻击在域泛化场景下效果不佳。

核心思路:论文的核心思路是设计一种领域无关的触发器,并将其注入到对模型预测影响最大的关键区域。通过这种方式,即使在测试数据域与训练数据域存在差异的情况下,模型仍然能够识别并响应触发器,从而实现有效的后门攻击。论文强调触发器模式应独立于特定数据域和模型架构,并利用归因解释方法定位关键区域。

技术框架:MABA攻击方法主要包含以下几个步骤:1) 使用归因解释方法识别输入图像和文本中的关键区域;2) 设计领域无关的触发器模式;3) 将触发器注入到关键区域,生成中毒样本;4) 使用中毒样本对LVLM进行指令微调。在推理阶段,当输入包含触发器的样本时,LVLM会被诱导输出预设的错误答案。

关键创新:MABA的关键创新在于:1) 提出了后门域泛化的评估维度,更贴近实际应用场景;2) 设计了领域无关的触发器模式,提高了攻击的泛化能力;3) 利用多模态归因解释方法定位关键区域,提升了攻击的效率和隐蔽性。与现有方法相比,MABA能够更好地应对域偏移带来的挑战,实现更高的攻击成功率。

关键设计:在触发器设计方面,论文采用了简单的几何形状(如方块、圆形)作为视觉触发器,并使用与任务无关的词语作为文本触发器。在归因解释方面,论文使用了Integrated Gradients等方法来计算输入图像和文本中每个像素/词语对模型预测的重要性。在中毒样本生成方面,论文控制中毒率在一个较低的水平(如0.2%),以保证攻击的隐蔽性。损失函数方面,除了标准的指令微调损失外,还引入了额外的损失项来鼓励模型预测触发器。

📊 实验亮点

实验结果表明,MABA攻击在OpenFlamingo、Blip-2和Otter等多个LVLM模型上均取得了显著的攻击效果。在0.2%的投毒率下,MABA的攻击成功率达到了97%,相比于其他基线方法,攻击成功率提升了36.4%。这表明MABA能够有效地提升后门攻击在域泛化场景下的成功率。

🎯 应用场景

该研究成果可应用于评估和提升大型视觉语言模型的安全性,尤其是在开放域和多模态应用场景下。通过模拟和分析后门攻击,可以帮助开发者发现模型潜在的安全漏洞,并采取相应的防御措施,例如输入过滤、模型鲁棒性训练等,从而提高LVLM的可靠性和安全性。

📄 摘要(原文)

Instruction tuning enhances large vision-language models (LVLMs) but increases their vulnerability to backdoor attacks due to their open design. Unlike prior studies in static settings, this paper explores backdoor attacks in LVLM instruction tuning across mismatched training and testing domains. We introduce a new evaluation dimension, backdoor domain generalization, to assess attack robustness under visual and text domain shifts. Our findings reveal two insights: (1) backdoor generalizability improves when distinctive trigger patterns are independent of specific data domains or model architectures, and (2) the competitive interaction between trigger patterns and clean semantic regions, where guiding the model to predict triggers enhances attack generalizability. Based on these insights, we propose a multimodal attribution backdoor attack (MABA) that injects domain-agnostic triggers into critical areas using attributional interpretation. Experiments with OpenFlamingo, Blip-2, and Otter show that MABA significantly boosts the attack success rate of generalization by 36.4%, achieving a 97% success rate at a 0.2% poisoning rate. This study reveals limitations in current evaluations and highlights how enhanced backdoor generalizability poses a security threat to LVLMs, even without test data access.