InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning
作者: Mengyuan Sun, Yu Li, Yuchen Liu, Bo Du, Yunjie Ge
分类: cs.CR, cs.CV
发布日期: 2025-06-14
💡 一句话要点
InverTune:通过触发器反演和激活调整去除多模态对比学习模型中的后门
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 后门攻击 对抗防御 梯度反演 激活调整
📋 核心要点
- 现有后门防御方法依赖于对攻击者知识的强假设或需要大量干净数据,限制了其在多模态模型中的实际应用。
- InverTune通过对抗模拟暴露攻击签名,利用梯度反演重建触发器,并采用聚类引导的微调策略消除后门。
- 实验表明,InverTune在显著降低攻击成功率的同时,对模型原始性能的影响很小,为多模态模型安全提供新思路。
📝 摘要(中文)
多模态对比学习模型(如CLIP)展现了卓越的视觉-语言对齐能力,但其易受后门攻击的特性带来了严重的安全风险。攻击者可以植入潜伏的触发器,这些触发器会持续存在于下游任务中,从而在触发器出现时恶意控制模型的行为。尽管最近的防御机制取得了很大成功,但由于对攻击者知识的强烈假设或过多的干净数据需求,它们仍然不实用。本文介绍InverTune,这是第一个在最小攻击者假设下针对多模态模型的后门防御框架,既不需要事先了解攻击目标,也不需要访问中毒数据集。与依赖中毒阶段使用的相同数据集的现有防御方法不同,InverTune通过三个关键组件有效地识别和删除后门伪影,从而实现对后门攻击的强大保护。具体来说,InverTune首先通过对抗模拟暴露攻击签名,通过分析模型响应模式概率性地识别目标标签。在此基础上,我们开发了一种梯度反演技术,通过激活模式分析重建潜在的触发器。最后,采用聚类引导的微调策略,仅使用少量任意干净数据即可消除后门功能,同时保留原始模型的功能。实验结果表明,InverTune将平均攻击成功率(ASR)降低了97.87%,同时将干净准确率(CA)的降幅限制在3.07%。这项工作为保护多模态系统建立了一个新的范例,在不影响性能的情况下提高了基础模型部署的安全性。
🔬 方法详解
问题定义:论文旨在解决多模态对比学习模型(如CLIP)中存在的后门攻击问题。现有防御方法通常需要关于攻击目标的先验知识或访问中毒数据集,这在实际应用中往往难以满足。因此,如何在最小化攻击者假设的前提下,有效地防御多模态模型的后门攻击是一个重要的挑战。
核心思路:InverTune的核心思路是通过逆向工程来识别和消除后门。首先,通过对抗模拟来暴露攻击签名,然后利用梯度反演技术重建潜在的触发器。最后,通过聚类引导的微调策略,在少量干净数据的帮助下,消除后门功能,同时保留原始模型的性能。这种方法避免了对攻击者知识的强假设,并且不需要访问中毒数据集。
技术框架:InverTune框架包含三个主要阶段:1) 攻击签名暴露:通过对抗模拟,分析模型对不同输入的响应模式,概率性地识别目标标签。2) 触发器重建:利用梯度反演技术,从激活模式中重建潜在的触发器。3) 后门消除:采用聚类引导的微调策略,使用少量干净数据,消除后门功能,同时保留原始模型的能力。
关键创新:InverTune的关键创新在于其能够在最小化攻击者假设的前提下,有效地防御多模态模型的后门攻击。与现有方法相比,InverTune不需要关于攻击目标的先验知识,也不需要访问中毒数据集。此外,InverTune通过梯度反演技术重建触发器,并利用聚类引导的微调策略消除后门,这是一种全新的防御思路。
关键设计:在攻击签名暴露阶段,论文设计了一种对抗模拟方法,通过分析模型对不同输入的响应模式来识别目标标签。在触发器重建阶段,论文采用了一种梯度反演技术,通过优化输入图像,使其激活目标神经元的程度最大化,从而重建触发器。在后门消除阶段,论文设计了一种聚类引导的微调策略,通过对模型进行微调,消除后门功能,同时保留原始模型的能力。具体的参数设置和损失函数细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InverTune在防御最先进的后门攻击时,能够将平均攻击成功率(ASR)降低97.87%,同时将干净准确率(CA)的降幅限制在3.07%。这表明InverTune能够在有效防御后门攻击的同时,最大程度地保留原始模型的性能,优于现有的防御方法。
🎯 应用场景
InverTune的研究成果可应用于各种多模态学习系统,例如图像检索、视频理解、自然语言处理等。该方法能够有效提升这些系统在实际部署中的安全性,防止恶意攻击者通过后门控制模型行为,保障用户数据安全和系统稳定运行。未来,该技术有望成为多模态基础模型安全部署的重要组成部分。
📄 摘要(原文)
Multimodal contrastive learning models like CLIP have demonstrated remarkable vision-language alignment capabilities, yet their vulnerability to backdoor attacks poses critical security risks. Attackers can implant latent triggers that persist through downstream tasks, enabling malicious control of model behavior upon trigger presentation. Despite great success in recent defense mechanisms, they remain impractical due to strong assumptions about attacker knowledge or excessive clean data requirements. In this paper, we introduce InverTune, the first backdoor defense framework for multimodal models under minimal attacker assumptions, requiring neither prior knowledge of attack targets nor access to the poisoned dataset. Unlike existing defense methods that rely on the same dataset used in the poisoning stage, InverTune effectively identifies and removes backdoor artifacts through three key components, achieving robust protection against backdoor attacks. Specifically, InverTune first exposes attack signatures through adversarial simulation, probabilistically identifying the target label by analyzing model response patterns. Building on this, we develop a gradient inversion technique to reconstruct latent triggers through activation pattern analysis. Finally, a clustering-guided fine-tuning strategy is employed to erase the backdoor function with only a small amount of arbitrary clean data, while preserving the original model capabilities. Experimental results show that InverTune reduces the average attack success rate (ASR) by 97.87% against the state-of-the-art (SOTA) attacks while limiting clean accuracy (CA) degradation to just 3.07%. This work establishes a new paradigm for securing multimodal systems, advancing security in foundation model deployment without compromising performance.