Stealthy and Adjustable Text-Guided Backdoor Attacks on Multimodal Pretrained Models

📄 arXiv: 2604.05809v1 📥 PDF

作者: Yiyang Zhang, Chaojian Yu, Ziming Hong, Yuanjie Shao, Qinmu Peng, Tongliang Liu, Xinge You

分类: cs.CR, cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出文本引导的后门攻击TGB,提升多模态预训练模型的隐蔽性和可控性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 后门攻击 文本引导 对抗扰动 预训练模型

📋 核心要点

  1. 现有后门攻击方法依赖视觉触发器,在真实场景中难以应用,隐蔽性不足。
  2. 提出文本引导的后门攻击(TGB),利用文本中常见词语作为触发器,提高隐蔽性。
  3. 引入视觉对抗扰动调节模型对文本触发器的学习,实现攻击成功率的可控调整。

📝 摘要(中文)

多模态预训练模型容易受到后门攻击的影响,但现有方法大多依赖于视觉或多模态触发器,这在实际应用中并不实用,因为视觉嵌入的触发器很少出现在真实数据中。为了克服这一局限性,我们提出了一种新颖的文本引导后门(TGB)攻击方法,该方法利用文本描述中常见的词语作为后门触发器,从而显著提高了隐蔽性和实用性。此外,我们还在中毒样本上引入视觉对抗扰动,以调节模型对文本触发器的学习,从而实现可控和可调整的TGB攻击。在基于多模态预训练模型构建的下游任务(包括组合图像检索(CIR)和视觉问答(VQA))上进行的大量实验表明,TGB在各种真实场景中实现了实用性和隐蔽性,并具有可调整的攻击成功率,揭示了多模态预训练模型中存在的关键安全漏洞。

🔬 方法详解

问题定义:现有的多模态预训练模型后门攻击方法主要依赖于视觉或多模态的触发器。这些触发器通常是特定的图像模式或视觉元素,在真实世界的数据中出现的频率较低,因此容易被检测到,隐蔽性较差。此外,现有方法缺乏对攻击成功率的有效控制,难以适应不同的安全需求。因此,需要一种更隐蔽、更可控的后门攻击方法。

核心思路:本文的核心思路是利用文本信息中的常见词语作为后门触发器。由于这些词语在自然语言中普遍存在,因此很难被察觉,从而提高了攻击的隐蔽性。此外,通过在视觉模态上引入对抗扰动,可以调节模型对文本触发器的敏感程度,从而实现对攻击成功率的精确控制。这种设计使得攻击者可以在隐蔽性和攻击效果之间进行权衡。

技术框架:TGB攻击的整体框架包括以下几个主要步骤:1) 选择目标多模态预训练模型和下游任务;2) 确定文本触发词,这些词语是文本描述中常见的词汇;3) 构造中毒样本,将触发词添加到文本描述中,并在对应的图像上添加视觉对抗扰动;4) 使用中毒样本微调目标模型,使模型学习到触发词与特定输出之间的关联;5) 在测试阶段,当输入样本包含触发词时,模型将被诱导产生错误的预测。

关键创新:TGB攻击的关键创新在于:1) 使用文本触发器代替视觉触发器,显著提高了攻击的隐蔽性;2) 引入视觉对抗扰动,实现了对攻击成功率的可控调整。这使得攻击者可以根据实际需求,灵活地调整攻击策略。与现有方法相比,TGB攻击更具实用性和适应性。

关键设计:在TGB攻击中,视觉对抗扰动的生成至关重要。本文采用了一种基于梯度的方法来生成对抗扰动,目标是使模型对文本触发器的敏感程度发生变化。具体来说,通过最小化一个损失函数,该损失函数衡量了模型在包含触发词的样本上的预测结果与目标结果之间的差异。此外,为了保证扰动的不可察觉性,还对扰动的大小进行了限制。文本触发词的选择也需要仔细考虑,应选择那些在语料库中频繁出现,但与目标任务没有直接关联的词语。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TGB攻击在Composed Image Retrieval (CIR)和Visual Question Answering (VQA)等下游任务上取得了显著的攻击效果。在保证高隐蔽性的前提下,TGB攻击的成功率可达到较高的水平,并且可以通过调整视觉对抗扰动来控制攻击成功率。与基线方法相比,TGB攻击在隐蔽性和可控性方面均有明显优势。

🎯 应用场景

该研究成果可应用于评估和增强多模态预训练模型的安全性。通过模拟真实的后门攻击场景,可以帮助研究人员发现模型中存在的安全漏洞,并开发相应的防御机制。此外,该技术还可以用于评估不同模型的鲁棒性,为模型的安全部署提供参考。

📄 摘要(原文)

Multimodal pretrained models are vulnerable to backdoor attacks, yet most existing methods rely on visual or multimodal triggers, which are impractical since visually embedded triggers rarely occur in real-world data. To overcome this limitation, we propose a novel Text-Guided Backdoor (TGB) attack on multimodal pretrained models, where commonly occurring words in textual descriptions serve as backdoor triggers, significantly improving stealthiness and practicality. Furthermore, we introduce visual adversarial perturbations on poisoned samples to modulate the model's learning of textual triggers, enabling a controllable and adjustable TGB attack. Extensive experiments on downstream tasks built upon multimodal pretrained models, including Composed Image Retrieval (CIR) and Visual Question Answering (VQA), demonstrate that TGB achieves practicality and stealthiness with adjustable attack success rates across diverse realistic settings, revealing critical security vulnerabilities in multimodal pretrained models.