SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments

📄 arXiv: 2412.00114v2 📥 PDF

作者: Yue Cao, Yun Xing, Jie Zhang, Di Lin, Tianwei Zhang, Ivor Tsang, Yang Liu, Qing Guo

分类: cs.CV, cs.AI

发布日期: 2024-11-28 (更新: 2025-04-08)


💡 一句话要点

SceneTAP:提出场景一致的排版对抗攻击,针对现实环境中视觉-语言模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 对抗攻击 场景一致性 大型语言模型 文本扩散模型

📋 核心要点

  1. 现有对抗文本攻击易被识别为异常,缺乏视觉自然性与场景一致性。
  2. 提出SceneTAP,利用LLM进行场景理解、对抗规划和无缝集成,生成场景一致的排版对抗攻击。
  3. 实验表明,SceneTAP能有效误导先进LVLMs,即使在物理环境中拍摄新图像后,攻击成功率仍显著提高。

📝 摘要(中文)

大型视觉-语言模型(LVLMs)在理解视觉内容方面表现出卓越的能力。然而,现有研究表明,这些模型容易受到精心设计的对抗性文本的攻击,但这些文本通常很容易被识别为异常。本文提出了一种生成场景一致的排版对抗攻击的新方法,该方法通过基于LLM的代理的能力来误导先进的LVLMs,同时保持视觉自然性。我们的方法解决了三个关键问题:生成什么样的对抗性文本,将其放置在场景中的何处,以及如何将其无缝集成。我们提出了一种免训练的、多模态的、由LLM驱动的场景一致的排版对抗规划(SceneTAP),它采用了一个三阶段过程:场景理解、对抗规划和无缝集成。SceneTAP利用思维链推理来理解场景,制定有效的对抗性文本,战略性地规划其放置位置,并提供在图像中自然集成的详细说明。然后,使用场景一致的TextDiffuser,利用局部扩散机制执行攻击。我们将我们的方法扩展到现实场景,通过打印并将生成的补丁放置在物理环境中,展示了它的实际意义。大量的实验表明,我们的场景一致的对抗性文本成功地误导了最先进的LVLMs,包括ChatGPT-4o,即使在捕获物理设置的新图像后也是如此。我们的评估表明,在保持视觉自然性和上下文适当性的同时,攻击成功率显著提高。这项工作突出了当前视觉-语言模型在复杂的、场景一致的对抗性攻击中的漏洞,并提供了对潜在防御机制的见解。

🔬 方法详解

问题定义:现有针对视觉-语言模型的对抗攻击,尤其是基于文本的攻击,通常会生成与场景不协调、容易被人类识别为异常的文本。这些攻击缺乏视觉自然性和上下文一致性,限制了其在现实世界中的有效性。因此,需要一种能够生成场景一致、难以察觉的对抗性文本的方法,以更有效地攻击LVLMs。

核心思路:SceneTAP的核心思路是利用大型语言模型(LLM)的强大推理和生成能力,模拟人类在场景中放置文本的过程。通过让LLM理解场景内容,规划对抗性文本的内容和位置,并指导文本的自然集成,从而生成与场景高度一致的对抗性攻击。这种方法旨在欺骗LVLMs,同时保持视觉上的合理性。

技术框架:SceneTAP包含三个主要阶段:1) 场景理解:利用LLM分析输入图像,提取场景中的关键信息,例如物体、关系和上下文。2) 对抗规划:基于场景理解的结果,LLM生成对抗性文本,并规划其在图像中的最佳放置位置。LLM会考虑文本的内容、字体、大小、颜色等因素,以确保其与场景协调一致。3) 无缝集成:使用TextDiffuser模型,根据LLM的指令,将对抗性文本无缝地集成到图像中。TextDiffuser采用局部扩散机制,以确保文本与周围环境的视觉融合。

关键创新:SceneTAP的关键创新在于其利用LLM进行场景一致的对抗规划。与以往的对抗攻击方法不同,SceneTAP不是简单地随机生成或放置对抗性文本,而是通过LLM的推理能力,生成与场景语义相关的、视觉上自然的对抗性文本。此外,SceneTAP采用TextDiffuser进行无缝集成,进一步提高了攻击的隐蔽性和有效性。

关键设计:SceneTAP的关键设计包括:1) 使用Chain-of-Thought (CoT) prompting来增强LLM的推理能力,使其能够更好地理解场景和规划对抗性文本。2) TextDiffuser采用局部扩散机制,以确保文本与周围环境的视觉融合。3) 针对不同的场景和LVLMs,可以调整LLM的prompt和TextDiffuser的参数,以优化攻击效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SceneTAP能够显著提高对抗攻击的成功率,同时保持视觉自然性和上下文适当性。即使在物理环境中捕获新图像后,SceneTAP仍然能够有效地误导最先进的LVLMs,包括ChatGPT-4o。与现有方法相比,SceneTAP在攻击成功率和视觉自然性方面均取得了显著提升。

🎯 应用场景

该研究成果可应用于评估和提升视觉-语言模型的鲁棒性,尤其是在安全攸关的应用场景中,如自动驾驶、智能监控等。通过发现LVLMs的潜在漏洞,可以促进更安全、可靠的AI系统的开发。此外,该方法也可用于生成更逼真的图像编辑和增强效果。

📄 摘要(原文)

Large vision-language models (LVLMs) have shown remarkable capabilities in interpreting visual content. While existing works demonstrate these models' vulnerability to deliberately placed adversarial texts, such texts are often easily identifiable as anomalous. In this paper, we present the first approach to generate scene-coherent typographic adversarial attacks that mislead advanced LVLMs while maintaining visual naturalness through the capability of the LLM-based agent. Our approach addresses three critical questions: what adversarial text to generate, where to place it within the scene, and how to integrate it seamlessly. We propose a training-free, multi-modal LLM-driven scene-coherent typographic adversarial planning (SceneTAP) that employs a three-stage process: scene understanding, adversarial planning, and seamless integration. The SceneTAP utilizes chain-of-thought reasoning to comprehend the scene, formulate effective adversarial text, strategically plan its placement, and provide detailed instructions for natural integration within the image. This is followed by a scene-coherent TextDiffuser that executes the attack using a local diffusion mechanism. We extend our method to real-world scenarios by printing and placing generated patches in physical environments, demonstrating its practical implications. Extensive experiments show that our scene-coherent adversarial text successfully misleads state-of-the-art LVLMs, including ChatGPT-4o, even after capturing new images of physical setups. Our evaluations demonstrate a significant increase in attack success rates while maintaining visual naturalness and contextual appropriateness. This work highlights vulnerabilities in current vision-language models to sophisticated, scene-coherent adversarial attacks and provides insights into potential defense mechanisms.