Towards Mechanistic Defenses Against Typographic Attacks in CLIP
作者: Lorenz Hufe, Constantin Venhoff, Maximilian Dreyer, Sebastian Lapuschkin, Wojciech Samek
分类: cs.CV, cs.AI
发布日期: 2025-08-28
💡 一句话要点
针对CLIP中印刷攻击,提出一种基于选择性消融的防御机制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: CLIP模型 印刷攻击 对抗性攻击 注意力机制 模型防御 因果干预 多模态学习
📋 核心要点
- 印刷攻击通过将文本注入图像来利用多模态系统,导致目标错误分类,恶意内容生成,甚至视觉-语言模型越狱。
- 通过定位CLIP模型中负责提取和传递印刷信息的特定注意力头,选择性地消融这些注意力头,从而防御印刷攻击。
- 提出的方法在无需微调的情况下,显著提升了模型在印刷攻击下的鲁棒性,同时对原始图像识别性能影响很小。
📝 摘要(中文)
本文分析了CLIP视觉编码器在印刷攻击下的行为,发现模型后半部分的特定注意力头有选择性地提取并将印刷信息传递给cls token。基于此,本文提出了一种防御CLIP模型免受印刷攻击的方法,即选择性地消融一个由注意力头组成的印刷电路。该方法无需微调,在ImageNet-100的印刷变体上性能提升高达19.6%,而标准ImageNet-100的准确率降低不到1%。值得注意的是,这种无需训练的方法与依赖微调的当前最先进的印刷防御方法相比仍具有竞争力。为此,本文发布了一系列抗印刷攻击能力更强的dyslexic CLIP模型,这些模型可以作为各种安全关键型应用的直接替代品,在这些应用中,基于文本的操纵风险超过了文本识别的效用。
🔬 方法详解
问题定义:论文旨在解决CLIP模型在受到印刷攻击时容易被误导的问题。现有的CLIP模型容易受到在图像中嵌入恶意文本的攻击,导致模型产生错误的分类结果,甚至被用于恶意内容生成。现有的防御方法通常需要大量的微调,计算成本高昂,且可能影响模型在原始任务上的性能。
核心思路:论文的核心思路是识别并消除CLIP模型中负责处理印刷信息的特定模块(注意力头),从而使模型对印刷攻击不敏感。这种方法基于对CLIP模型内部机制的理解,通过手术刀式地干预模型,而不是通过大量数据进行微调。
技术框架:该方法主要包含以下几个步骤:1) 分析CLIP模型在受到印刷攻击时的行为,定位负责提取和传递印刷信息的注意力头。2) 构建一个由这些注意力头组成的“印刷电路”。3) 选择性地消融(即移除或禁用)这个印刷电路,从而阻止印刷信息影响模型的最终分类结果。整个过程不需要额外的训练或微调。
关键创新:该方法的关键创新在于它是一种基于机制理解的防御方法,而不是一种基于数据驱动的防御方法。通过分析CLIP模型的内部机制,论文能够精确地定位并消除负责处理印刷信息的模块,从而实现高效的防御。与现有方法相比,该方法无需微调,计算成本低,且对原始图像识别性能的影响很小。
关键设计:论文的关键设计包括:1) 使用因果干预技术来识别负责处理印刷信息的注意力头。2) 设计了一种选择性消融策略,只移除对印刷攻击敏感的注意力头,而保留其他注意力头以保持模型的原始性能。3) 创建了一系列“dyslexic CLIP”模型,这些模型对印刷攻击具有更强的鲁棒性,可以作为现有CLIP模型的直接替代品。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在ImageNet-100的印刷变体上性能提升高达19.6%,同时标准ImageNet-100的准确率降低不到1%。与需要微调的现有最先进方法相比,该方法在性能上具有竞争力,且无需额外的训练成本。论文还发布了一系列“dyslexic CLIP”模型,这些模型对印刷攻击具有更强的鲁棒性。
🎯 应用场景
该研究成果可应用于各种安全关键型应用,例如内容审核、恶意软件检测和防止AI模型被恶意利用。通过提高模型对印刷攻击的鲁棒性,可以减少模型被用于生成虚假信息、传播仇恨言论或进行其他恶意活动的可能性。此外,该方法还可以用于开发更安全的AI系统,这些系统能够抵抗各种类型的对抗性攻击。
📄 摘要(原文)
Typographic attacks exploit multi-modal systems by injecting text into images, leading to targeted misclassifications, malicious content generation and even Vision-Language Model jailbreaks. In this work, we analyze how CLIP vision encoders behave under typographic attacks, locating specialized attention heads in the latter half of the model's layers that causally extract and transmit typographic information to the cls token. Building on these insights, we introduce a method to defend CLIP models against typographic attacks by selectively ablating a typographic circuit, consisting of attention heads. Without requiring finetuning, our method improves performance by up to 19.6% on a typographic variant of ImageNet-100, while reducing standard ImageNet-100 accuracy by less than 1%. Notably, our training-free approach remains competitive with current state-of-the-art typographic defenses that rely on finetuning. To this end, we release a family of dyslexic CLIP models which are significantly more robust against typographic attacks. These models serve as suitable drop-in replacements for a broad range of safety-critical applications, where the risks of text-based manipulation outweigh the utility of text recognition.