SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

📄 arXiv: 2504.04893v6 📥 PDF

作者: Justus Westerhoff, Erblina Purelku, Jakob Hackstein, Jonas Loos, Leo Pinetzki, Erik Rodner, Lorenz Hufe

分类: cs.CV, cs.AI

发布日期: 2025-04-07 (更新: 2025-09-26)

备注: Accepted at CVPR 2025 Workshop EVAL-FoMo-2


💡 一句话要点

SCAM:一个用于评估多模态基础模型在印刷攻击下鲁棒性的真实世界数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉-语言模型 印刷攻击 鲁棒性评估 对抗性攻击

📋 核心要点

  1. 现有的印刷攻击数据集规模和多样性有限,难以充分研究多模态模型在此类攻击下的脆弱性。
  2. 论文构建了大规模、多样化的真实世界印刷攻击数据集SCAM,用于评估视觉-语言模型的鲁棒性。
  3. 实验表明,印刷攻击显著降低模型性能,且模型架构和训练数据影响模型对此类攻击的敏感性。

📝 摘要(中文)

本文提出了SCAM,迄今为止最大、最具多样性的真实世界印刷攻击图像数据集,包含1162张图像,涵盖数百个对象类别和攻击词。通过在SCAM上对视觉-语言模型进行广泛的基准测试,证明了印刷攻击会显著降低模型性能,并发现训练数据和模型架构会影响对此类攻击的敏感性。研究表明,印刷攻击对最先进的大型视觉-语言模型仍然有效,特别是那些采用对这类攻击固有脆弱的视觉编码器的模型。然而,采用更大的大型语言模型骨干网络可以降低这种脆弱性,同时提高对印刷的理解。此外,还证明了合成攻击与真实(手写)攻击非常相似,验证了它们在研究中的使用。这项工作提供了一个全面的资源和经验见解,以促进未来对鲁棒和值得信赖的多模态人工智能系统的研究。最后,公开发布了本文中介绍的数据集,以及www.bliss.berlin/research/scam下的评估代码。

🔬 方法详解

问题定义:论文旨在解决多模态基础模型在面对印刷攻击时的脆弱性问题。现有的数据集规模小、多样性不足,无法充分评估模型的鲁棒性,并且缺乏真实世界场景的覆盖。因此,模型容易受到恶意嵌入图像中的误导性文本的影响,导致分类错误。

核心思路:论文的核心思路是构建一个大规模、多样化的真实世界印刷攻击数据集SCAM,并利用该数据集对现有的视觉-语言模型进行基准测试,从而揭示模型在面对印刷攻击时的弱点。通过分析不同模型架构和训练数据对攻击的敏感性,为未来设计更鲁棒的模型提供指导。

技术框架:论文主要包含数据集构建和模型评估两个阶段。数据集构建阶段,收集了包含各种对象类别和攻击词的真实世界图像,并对图像进行标注。模型评估阶段,选取了多个具有代表性的视觉-语言模型,在SCAM数据集上进行测试,并分析模型的性能表现。

关键创新:论文的关键创新在于构建了迄今为止最大、最具多样性的真实世界印刷攻击数据集SCAM。该数据集的真实性和多样性使其能够更准确地评估模型在实际应用场景中的鲁棒性。此外,论文还验证了合成攻击与真实攻击的相似性,为研究人员使用合成数据进行相关研究提供了依据。

关键设计:SCAM数据集包含1162张图像,涵盖数百个对象类别和攻击词。在模型评估方面,论文选取了多种视觉-语言模型,包括CLIP、ALIGN等,并使用标准的分类指标(如准确率)来评估模型的性能。同时,论文还分析了不同模型架构(如视觉编码器和语言模型骨干网络)对攻击的敏感性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,印刷攻击能够显著降低现有视觉-语言模型的性能。例如,某些模型在SCAM数据集上的准确率下降幅度超过50%。同时,研究发现,采用更大的语言模型骨干网络可以有效降低模型对印刷攻击的敏感性,并提升模型对印刷内容的理解能力。此外,实验还验证了合成攻击与真实攻击具有相似的效果,为研究人员使用合成数据进行相关研究提供了依据。

🎯 应用场景

该研究成果可应用于提升多模态人工智能系统的安全性与可靠性,例如在自动驾驶、图像搜索、内容审核等领域,防止恶意攻击者利用印刷攻击干扰模型的正常运行,保障系统的稳定性和准确性。该数据集和分析方法也有助于开发更鲁棒的多模态模型,增强其在真实世界复杂环境下的适应能力。

📄 摘要(原文)

Typographic attacks exploit the interplay between text and visual content in multimodal foundation models, causing misclassifications when misleading text is embedded within images. Existing datasets are limited in size and diversity, making it difficult to study such vulnerabilities. In this paper, we introduce SCAM, the largest and most diverse dataset of real-world typographic attack images to date, containing 1162 images across hundreds of object categories and attack words. Through extensive benchmarking of Vision-Language Models on SCAM, we demonstrate that typographic attacks significantly degrade performance, and identify that training data and model architecture influence the susceptibility to these attacks. Our findings indicate that typographic attacks remain effective against state-of-the-art Large Vision-Language Models, especially those employing vision encoders inherently vulnerable to such attacks. However, employing larger Large Language Model backbones reduces this vulnerability while simultaneously enhancing typographic understanding. Additionally, we demonstrate that synthetic attacks closely resemble real-world (handwritten) attacks, validating their use in research. Our work provides a comprehensive resource and empirical insights to facilitate future research toward robust and trustworthy multimodal AI systems. Finally, we publicly release the datasets introduced in this paper, along with the code for evaluations under www.bliss.berlin/research/scam.