Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

📄 arXiv: 2505.22943v1 📥 PDF

作者: Jaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim

分类: cs.CL, cs.AI, cs.CV, cs.LG, cs.SD

发布日期: 2025-05-28

备注: ACL 2025 Main. Code is released at https://vision.snu.ac.kr/projects/mac


💡 一句话要点

提出多模态对抗组合性基准MAC,利用LLM生成欺骗性文本以评估CLIP的脆弱性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 对抗攻击 组合性 大型语言模型 自训练 CLIP 鲁棒性评估

📋 核心要点

  1. 现有的多模态模型在组合性方面存在脆弱性,容易受到对抗性文本的欺骗,导致模型做出错误的判断。
  2. 利用大型语言模型生成对抗性文本样本,并设计自训练方法,通过拒绝采样微调和多样性过滤来增强攻击效果。
  3. 实验表明,该方法能够有效地揭示各种多模态表示的组合性脆弱性,并在攻击成功率和样本多样性方面表现出色。

📝 摘要(中文)

预训练多模态表示(如CLIP)虽然展现了强大的能力,但也存在显著的组合性脆弱性,导致违反直觉的判断。本文提出了多模态对抗组合性(MAC)基准,该基准利用大型语言模型(LLM)生成欺骗性文本样本,以利用不同模态间的这些脆弱性,并通过样本级的攻击成功率和组级的基于熵的多样性来评估它们。为了改进零样本方法,本文提出了一种自训练方法,该方法利用带有促进多样性的过滤的拒绝采样微调,从而提高了攻击成功率和样本多样性。使用像Llama-3.1-8B这样较小的语言模型,本文的方法在揭示包括图像、视频和音频在内的各种多模态表示的组合性脆弱性方面表现出卓越的性能。

🔬 方法详解

问题定义:论文旨在解决预训练多模态模型(如CLIP)在组合性方面存在的脆弱性问题。现有方法难以有效地发现和利用这些脆弱性,使得模型容易受到对抗性文本的欺骗,导致错误的判断。这种脆弱性限制了多模态模型在实际应用中的可靠性和安全性。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成具有欺骗性的对抗性文本样本,以此来系统性地评估和揭示多模态模型的组合性脆弱性。通过精心设计的对抗性样本,可以诱导模型产生错误的判断,从而暴露其在理解和推理复杂组合概念方面的不足。

技术框架:整体框架包含三个主要阶段:1) 利用LLM生成候选对抗性文本样本;2) 使用多模态模型(如CLIP)评估这些样本的欺骗性,并计算攻击成功率和样本多样性;3) 采用自训练方法,通过拒绝采样微调和多样性过滤,优化LLM生成对抗性样本的能力。该框架可以应用于图像、视频和音频等多种模态。

关键创新:论文的关键创新在于提出了多模态对抗组合性(MAC)基准,并设计了一种自训练方法来增强对抗性样本的生成。MAC基准提供了一个系统性的评估框架,用于衡量多模态模型在组合性方面的鲁棒性。自训练方法通过拒绝采样微调和多样性过滤,显著提高了攻击成功率和样本多样性。

关键设计:自训练方法中的拒绝采样微调利用多模态模型的反馈来优化LLM的生成策略。具体来说,只有那些能够成功欺骗多模态模型的样本才会被用于微调LLM。多样性过滤则通过计算样本之间的相似度,并选择具有代表性的样本,从而避免LLM生成过于相似的对抗性样本。损失函数的设计旨在最大化攻击成功率,同时鼓励生成多样化的样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Llama-3.1-8B等较小的语言模型,该方法在揭示包括图像、视频和音频在内的各种多模态表示的组合性脆弱性方面表现出卓越的性能。自训练方法显著提高了攻击成功率和样本多样性,证明了其在增强对抗性样本生成方面的有效性。具体性能数据未知。

🎯 应用场景

该研究成果可应用于提升多模态模型的安全性与鲁棒性,例如在自动驾驶、智能监控、医疗诊断等领域,通过对抗训练提高模型对恶意输入的抵抗能力,减少因模型脆弱性导致的潜在风险。此外,该研究也有助于开发更可靠的多模态理解系统。

📄 摘要(原文)

While pre-trained multimodal representations (e.g., CLIP) have shown impressive capabilities, they exhibit significant compositional vulnerabilities leading to counterintuitive judgments. We introduce Multimodal Adversarial Compositionality (MAC), a benchmark that leverages large language models (LLMs) to generate deceptive text samples to exploit these vulnerabilities across different modalities and evaluates them through both sample-wise attack success rate and group-wise entropy-based diversity. To improve zero-shot methods, we propose a self-training approach that leverages rejection-sampling fine-tuning with diversity-promoting filtering, which enhances both attack success rate and sample diversity. Using smaller language models like Llama-3.1-8B, our approach demonstrates superior performance in revealing compositional vulnerabilities across various multimodal representations, including images, videos, and audios.