Hiding-in-Plain-Sight (HiPS) Attack on CLIP for Targetted Object Removal from Images
作者: Arka Daw, Megan Hong-Thanh Chung, Maria Mahbub, Amir Sadovnik
分类: cs.LG, cs.AI, cs.CR, cs.CV
发布日期: 2024-10-16
备注: Published in the 3rd Workshop on New Frontiers in Adversarial Machine Learning at NeurIPS 2024. 10 pages, 7 figures, 3 tables
💡 一句话要点
提出HiPS攻击,针对CLIP模型实现图像中目标对象的隐蔽移除
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击 多模态模型 CLIP 图像字幕 目标移除 隐蔽攻击 对抗样本 图像描述
📋 核心要点
- 现有多模态对抗攻击通常旨在完全改变模型输出,缺乏对细微修改场景的考虑。
- HiPS攻击通过选择性隐藏目标对象,实现对CLIP模型预测的微妙修改,模拟目标不存在的情况。
- HiPS-cls和HiPS-cap两种变体在图像字幕模型上成功实现目标移除,展示了攻击的有效性。
📝 摘要(中文)
机器学习模型容易受到对抗攻击的影响,而传统攻击主要集中在单模态上。随着像CLIP这样结合视觉和语言能力的大型多模态模型(LMM)的兴起,新的漏洞也随之出现。然而,先前在多模态目标攻击方面的工作旨在完全改变模型的输出以满足攻击者的需求。在许多实际场景中,攻击者可能寻求对输出进行细微修改,以便下游模型甚至人类都无法注意到这些变化。我们引入了Hiding-in-Plain-Sight(HiPS)攻击,这是一种新型的对抗攻击,它通过选择性地隐藏目标对象来巧妙地修改模型预测,就好像目标对象不存在于场景中一样。我们提出了两种HiPS攻击变体,HiPS-cls和HiPS-cap,并证明了它们在转移到下游图像字幕模型(如CLIP-Cap)中,用于从图像字幕中进行目标对象移除的有效性。
🔬 方法详解
问题定义:论文旨在解决多模态模型CLIP的对抗攻击问题,特别是针对目标对象的隐蔽移除。现有方法通常关注完全改变模型输出,忽略了攻击者可能希望进行细微修改以避免被检测到的场景。因此,需要一种能够巧妙地操纵模型预测,使目标对象看起来好像不存在于图像中的攻击方法。
核心思路:论文的核心思路是通过对抗性扰动,使CLIP模型在视觉和文本嵌入空间中对目标对象的感知降低,从而影响下游任务(如图像描述),使其生成的描述中不再包含目标对象。这种攻击不是直接修改图像像素,而是通过对抗样本来欺骗模型,使其产生“目标对象不存在”的错觉。
技术框架:HiPS攻击主要包含两个变体:HiPS-cls和HiPS-cap。HiPS-cls直接攻击CLIP的图像分类能力,通过对抗扰动降低目标类别的置信度。HiPS-cap则针对CLIP与图像字幕模型的结合,通过对抗扰动影响CLIP的图像嵌入,进而影响字幕模型的生成结果,使其不再包含目标对象。整体流程包括:输入图像、生成对抗扰动、CLIP模型处理、下游字幕模型生成描述。
关键创新:HiPS攻击的关键创新在于其“隐蔽性”,即攻击的目标不是完全改变模型的输出,而是巧妙地移除目标对象,使得修改更加难以察觉。此外,HiPS攻击针对多模态模型CLIP,并成功转移到下游的图像字幕任务,展示了其跨模态的攻击能力。
关键设计:HiPS-cls使用交叉熵损失函数,目标是降低目标类别的预测概率。HiPS-cap使用余弦相似度损失函数,目标是使对抗样本的图像嵌入与不包含目标对象的图像的嵌入更加接近。对抗扰动的生成采用迭代梯度下降法,并限制扰动的大小以保证隐蔽性。具体参数设置(如学习率、迭代次数、扰动范围)需要根据具体数据集和模型进行调整。
🖼️ 关键图片
📊 实验亮点
论文提出了两种HiPS攻击变体,并在CLIP和CLIP-Cap模型上进行了实验验证。实验结果表明,HiPS攻击能够有效地从图像描述中移除目标对象,同时保持图像的视觉质量。攻击的成功率取决于目标对象的复杂度和模型本身的鲁棒性,但总体而言,HiPS攻击展示了对多模态模型进行隐蔽攻击的可能性。
🎯 应用场景
HiPS攻击的研究成果可应用于评估和提升多模态模型的安全性。通过模拟攻击场景,可以发现模型在面对恶意输入时的脆弱性,从而开发更鲁棒的防御机制。此外,该研究也提醒人们关注多模态模型在安全领域的潜在风险,例如在图像取证、内容审核等场景中,攻击者可能利用类似技术篡改信息。
📄 摘要(原文)
Machine learning models are known to be vulnerable to adversarial attacks, but traditional attacks have mostly focused on single-modalities. With the rise of large multi-modal models (LMMs) like CLIP, which combine vision and language capabilities, new vulnerabilities have emerged. However, prior work in multimodal targeted attacks aim to completely change the model's output to what the adversary wants. In many realistic scenarios, an adversary might seek to make only subtle modifications to the output, so that the changes go unnoticed by downstream models or even by humans. We introduce Hiding-in-Plain-Sight (HiPS) attacks, a novel class of adversarial attacks that subtly modifies model predictions by selectively concealing target object(s), as if the target object was absent from the scene. We propose two HiPS attack variants, HiPS-cls and HiPS-cap, and demonstrate their effectiveness in transferring to downstream image captioning models, such as CLIP-Cap, for targeted object removal from image captions.