Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors
作者: Jiachen Sun, Changsheng Wang, Jiongxiao Wang, Yiwei Zhang, Chaowei Xiao
分类: cs.CV, cs.AI
发布日期: 2024-05-17 (更新: 2024-08-24)
备注: 15 pages
💡 一句话要点
提出SmoothVLM,防御视觉语言模型中基于对抗补丁的提示注入攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 对抗攻击 提示注入 对抗补丁 防御机制
📋 核心要点
- 视觉语言模型易受对抗补丁攻击,攻击者通过在图像中添加对抗补丁来控制模型的输出。
- SmoothVLM利用对抗补丁对像素级随机化的敏感性,通过平滑技术防御此类攻击。
- 实验表明,SmoothVLM能有效降低攻击成功率至0%-5%,同时保持较高的良性图像上下文恢复率。
📝 摘要(中文)
大型语言模型日益重要,同时也标志着人工智能领域向多模态方向发展,其嵌入被用作提示以生成文本内容。视觉语言模型(VLM)正处于这一发展的前沿,为结合视觉和文本数据以增强理解和交互提供了创新方法。然而,这种集成也扩大了攻击面。基于补丁的对抗攻击被认为是物理视觉应用中最现实的威胁模型。本文旨在解决基于补丁的视觉提示注入问题,即攻击者利用对抗补丁在VLM中生成目标内容。研究表明,基于补丁的对抗提示对像素级的随机化很敏感,即使是旨在对抗此类防御的自适应攻击也无法克服这一特性。基于此,我们引入了SmoothVLM,一种基于平滑技术的防御机制,专门用于保护VLM免受基于补丁的视觉提示注入器的威胁。我们的框架显著降低了在两个领先VLM上的攻击成功率,使其范围在0%到5.0%之间,同时实现了大约67.3%到95.0%的良性图像上下文恢复,从而在安全性和可用性之间取得了平衡。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型(VLM)中存在的、基于对抗补丁的视觉提示注入攻击问题。现有的VLM容易受到攻击,攻击者可以通过在输入图像上添加精心设计的对抗补丁,诱导模型生成攻击者期望的文本内容。这种攻击方式在物理世界中具有很强的可行性,对VLM的安全性构成了严重威胁。
核心思路:论文的核心思路是利用对抗补丁对像素级随机化的敏感性。研究发现,即使是很小的像素扰动也能显著降低对抗补丁的攻击效果。因此,论文提出了一种基于平滑技术的防御机制,通过对输入图像进行多次随机扰动,并对模型的输出进行平均,从而降低对抗补丁的影响。
技术框架:SmoothVLM的整体框架包括以下几个主要步骤:1)对输入图像添加随机扰动,生成多个扰动后的图像;2)将每个扰动后的图像输入到VLM中,得到对应的文本输出;3)对所有文本输出进行平均或投票,得到最终的预测结果。这种平滑处理可以有效地降低对抗补丁的影响,提高模型的鲁棒性。
关键创新:SmoothVLM的关键创新在于利用了对抗补丁对像素级随机化的敏感性,并将其应用于VLM的防御。与传统的对抗训练方法相比,SmoothVLM不需要训练额外的模型,可以直接应用于现有的VLM,具有更高的实用性。此外,SmoothVLM的平滑处理方式可以有效地降低对抗补丁的影响,提高模型的鲁棒性,同时保持较高的良性图像上下文恢复率。
关键设计:SmoothVLM的关键设计包括:1)随机扰动的幅度:需要选择合适的扰动幅度,既要能够有效地降低对抗补丁的影响,又要避免对良性图像的识别造成过大的影响;2)平滑处理的方式:可以选择对文本输出进行平均或投票,不同的方式可能会对模型的性能产生不同的影响;3)自适应攻击的防御:论文还考虑了自适应攻击的情况,并提出了一些应对策略,例如增加随机扰动的次数或调整平滑处理的方式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SmoothVLM能够显著降低基于对抗补丁的视觉提示注入攻击的成功率。在两个领先的VLM上,攻击成功率降低到0%-5%,同时保持了67.3%-95.0%的良性图像上下文恢复率。这表明SmoothVLM在安全性和可用性之间取得了良好的平衡,是一种有效的防御机制。
🎯 应用场景
该研究成果可应用于各种需要视觉语言模型的场景,例如图像描述、视觉问答、图像检索等。通过提高VLM的安全性,可以防止恶意攻击者利用对抗补丁篡改模型的输出,确保模型的可靠性和安全性。该技术在自动驾驶、智能监控等安全攸关的应用中具有重要意义。
📄 摘要(原文)
Large language models have become increasingly prominent, also signaling a shift towards multimodality as the next frontier in artificial intelligence, where their embeddings are harnessed as prompts to generate textual content. Vision-language models (VLMs) stand at the forefront of this advancement, offering innovative ways to combine visual and textual data for enhanced understanding and interaction. However, this integration also enlarges the attack surface. Patch-based adversarial attack is considered the most realistic threat model in physical vision applications, as demonstrated in many existing literature. In this paper, we propose to address patched visual prompt injection, where adversaries exploit adversarial patches to generate target content in VLMs. Our investigation reveals that patched adversarial prompts exhibit sensitivity to pixel-wise randomization, a trait that remains robust even against adaptive attacks designed to counteract such defenses. Leveraging this insight, we introduce SmoothVLM, a defense mechanism rooted in smoothing techniques, specifically tailored to protect VLMs from the threat of patched visual prompt injectors. Our framework significantly lowers the attack success rate to a range between 0% and 5.0% on two leading VLMs, while achieving around 67.3% to 95.0% context recovery of the benign images, demonstrating a balance between security and usability.