Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs

📄 arXiv: 2503.00037v1 📥 PDF

作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2025-02-25


💡 一句话要点

SafeCLIP:利用LVLM内生多模态对齐实现零样本有毒图像防御

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态对齐 零样本学习 有毒图像检测 安全防御

📋 核心要点

  1. 大型视觉语言模型虽在文本安全方面表现出色,但对恶意图像的防御能力不足,现有防御方法成本高昂且影响模型效用。
  2. SafeCLIP利用LVLM固有的多模态对齐特性,将图像特征投影到文本空间,通过与有毒描述符匹配实现零样本有毒图像检测。
  3. 实验表明,SafeCLIP在防御成功率、误报率和开销方面均优于现有方法,实现了高效且低成本的LVLM安全防御。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在多模态理解方面取得了显著进展,这得益于大规模视觉数据集上的广泛预训练和微调。然而,尽管它们具有强大的文本安全机制,但仍然容易受到有害视觉输入的影响。现有的安全措施——通常依赖于预过滤或微调——会产生高昂的成本并降低整体效用。为了解决这个关键漏洞,我们引入了SafeCLIP,这是一种轻量级方法,它利用LVLM固有的多模态对齐进行零样本有毒图像检测。通过将CLIP丢弃的CLS token投影到其文本空间,并将其与有毒描述符匹配,SafeCLIP无需任何架构更改即可检测有害内容——添加最小的延迟,并支持在推理和微调期间进行动态安全校正。实验表明,SafeCLIP实现了66.9%的防御成功率,只有3.2%的误报率和7.2%的开销。相比之下,最先进的方法实现了52.9%的成功率,但有10.7%的误报率和210%的开销。我们的工作表明,利用固有的多模态对齐可以产生高效、低成本的LVLM安全性。代码可在anonymous.4open.science/r/safeclip-2C01获得。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLMs)容易受到恶意图像攻击的问题。现有防御方法,如预过滤和微调,存在高成本和降低模型效用的痛点。因此,需要一种低成本、高效的零样本防御方法,能够在不影响模型性能的前提下,有效识别和阻止有害视觉输入。

核心思路:SafeCLIP的核心思路是利用LVLMs固有的多模态对齐能力。由于LVLMs在训练过程中学习了图像和文本之间的对应关系,因此可以将图像特征投影到文本空间,并利用文本空间中的有毒描述符来检测有害图像。这种方法无需额外的训练或微调,从而降低了成本并保持了模型的原始性能。

技术框架:SafeCLIP的整体框架包括以下几个步骤:1) 使用CLIP模型提取输入图像的视觉特征,特别是CLIP丢弃的CLS token。2) 将提取的CLS token投影到LVLM的文本空间。3) 将投影后的特征与预定义的有毒描述符进行匹配,例如使用余弦相似度。4) 根据匹配结果判断图像是否为有毒图像。如果相似度超过预设阈值,则认为图像是有害的。

关键创新:SafeCLIP的关键创新在于利用了LVLM固有的多模态对齐能力进行零样本有毒图像检测。与现有方法相比,SafeCLIP无需额外的训练或微调,从而降低了成本并保持了模型的原始性能。此外,SafeCLIP通过利用CLIP丢弃的CLS token,实现了轻量级的特征提取和投影,从而降低了计算开销。

关键设计:SafeCLIP的关键设计包括:1) 使用CLIP模型提取视觉特征,特别是CLS token,因为CLS token通常包含图像的全局信息。2) 将CLS token投影到LVLM的文本空间,可以使用线性变换或非线性变换。3) 使用余弦相似度作为匹配度量,因为它对向量的长度不敏感,可以更好地反映向量之间的方向关系。4) 设置合适的相似度阈值,以平衡防御成功率和误报率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SafeCLIP在实验中表现出色,实现了66.9%的防御成功率,同时保持了较低的3.2%误报率和7.2%的开销。相比之下,最先进的方法仅实现了52.9%的成功率,但具有10.7%的误报率和高达210%的开销。这些结果表明,SafeCLIP在防御性能和效率方面均优于现有方法,是一种极具竞争力的零样本有毒图像防御方案。

🎯 应用场景

SafeCLIP可应用于各种需要防御恶意图像的场景,例如社交媒体平台、搜索引擎、内容审核系统等。它可以帮助这些平台自动检测和过滤有害图像,从而保护用户免受不良信息的侵害。此外,SafeCLIP还可以作为一种动态安全校正工具,在LVLM的推理和微调过程中提供额外的安全保障,提高模型的整体安全性。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) have made significant strides in multimodal comprehension, thanks to extensive pre-training and fine-tuning on large-scale visual datasets. However, despite their robust textual safety mechanisms, they remain vulnerable to harmful visual inputs. Existing safeguards-typically relying on pre-filtering or fine-tuning-incur high costs and diminish overall utility. To address this critical vulnerability, we introduce SafeCLIP, a lightweight method that leverages LVLMs inherent multimodal alignment for zero-shot toxic image detection. By projecting CLIPs discarded CLS token into its text space and matching it with toxic descriptors, SafeCLIP detects harmful content without any architectural changes-adding minimal latency and enabling dynamic safety corrections during inference and fine-tuning.Experiments show that SafeCLIP achieves a 66.9% defense success rate with only 3.2% false positive rate and 7.2% overhead. In contrast, state-of-the-art methods achieve 52.9% success but have a 10.7% false positive rate and 210% overhead. Our work demonstrates that leveraging inherent multimodal alignment can yield efficient, low-cost LVLM safety. Code is available at anonymous.4open.science/r/safeclip-2C01.