Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs

作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2025-02-25

💡 一句话要点

SafeCLIP：利用LVLM内生多模态对齐实现零样本有毒图像防御

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态对齐 零样本学习 有毒图像检测 安全防御

📋 核心要点

大型视觉语言模型虽在文本安全方面表现出色，但对恶意图像的防御能力不足，现有防御方法成本高昂且影响模型效用。
SafeCLIP利用LVLM固有的多模态对齐特性，将图像特征投影到文本空间，通过与有毒描述符匹配实现零样本有毒图像检测。
实验表明，SafeCLIP在防御成功率、误报率和开销方面均优于现有方法，实现了高效且低成本的LVLM安全防御。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在多模态理解方面取得了显著进展，这得益于大规模视觉数据集上的广泛预训练和微调。然而，尽管它们具有强大的文本安全机制，但仍然容易受到有害视觉输入的影响。现有的安全措施——通常依赖于预过滤或微调——会产生高昂的成本并降低整体效用。为了解决这个关键漏洞，我们引入了SafeCLIP，这是一种轻量级方法，它利用LVLM固有的多模态对齐进行零样本有毒图像检测。通过将CLIP丢弃的CLS token投影到其文本空间，并将其与有毒描述符匹配，SafeCLIP无需任何架构更改即可检测有害内容——添加最小的延迟，并支持在推理和微调期间进行动态安全校正。实验表明，SafeCLIP实现了66.9%的防御成功率，只有3.2%的误报率和7.2%的开销。相比之下，最先进的方法实现了52.9%的成功率，但有10.7%的误报率和210%的开销。我们的工作表明，利用固有的多模态对齐可以产生高效、低成本的LVLM安全性。代码可在anonymous.4open.science/r/safeclip-2C01获得。

🔬 方法详解

问题定义：论文旨在解决大型视觉语言模型（LVLMs）容易受到恶意图像攻击的问题。现有防御方法，如预过滤和微调，存在高成本和降低模型效用的痛点。因此，需要一种低成本、高效的零样本防御方法，能够在不影响模型性能的前提下，有效识别和阻止有害视觉输入。

核心思路：SafeCLIP的核心思路是利用LVLMs固有的多模态对齐能力。由于LVLMs在训练过程中学习了图像和文本之间的对应关系，因此可以将图像特征投影到文本空间，并利用文本空间中的有毒描述符来检测有害图像。这种方法无需额外的训练或微调，从而降低了成本并保持了模型的原始性能。

技术框架：SafeCLIP的整体框架包括以下几个步骤：1) 使用CLIP模型提取输入图像的视觉特征，特别是CLIP丢弃的CLS token。2) 将提取的CLS token投影到LVLM的文本空间。3) 将投影后的特征与预定义的有毒描述符进行匹配，例如使用余弦相似度。4) 根据匹配结果判断图像是否为有毒图像。如果相似度超过预设阈值，则认为图像是有害的。

关键创新：SafeCLIP的关键创新在于利用了LVLM固有的多模态对齐能力进行零样本有毒图像检测。与现有方法相比，SafeCLIP无需额外的训练或微调，从而降低了成本并保持了模型的原始性能。此外，SafeCLIP通过利用CLIP丢弃的CLS token，实现了轻量级的特征提取和投影，从而降低了计算开销。

关键设计：SafeCLIP的关键设计包括：1) 使用CLIP模型提取视觉特征，特别是CLS token，因为CLS token通常包含图像的全局信息。2) 将CLS token投影到LVLM的文本空间，可以使用线性变换或非线性变换。3) 使用余弦相似度作为匹配度量，因为它对向量的长度不敏感，可以更好地反映向量之间的方向关系。4) 设置合适的相似度阈值，以平衡防御成功率和误报率。

🖼️ 关键图片

📊 实验亮点

SafeCLIP在实验中表现出色，实现了66.9%的防御成功率，同时保持了较低的3.2%误报率和7.2%的开销。相比之下，最先进的方法仅实现了52.9%的成功率，但具有10.7%的误报率和高达210%的开销。这些结果表明，SafeCLIP在防御性能和效率方面均优于现有方法，是一种极具竞争力的零样本有毒图像防御方案。

🎯 应用场景

SafeCLIP可应用于各种需要防御恶意图像的场景，例如社交媒体平台、搜索引擎、内容审核系统等。它可以帮助这些平台自动检测和过滤有害图像，从而保护用户免受不良信息的侵害。此外，SafeCLIP还可以作为一种动态安全校正工具，在LVLM的推理和微调过程中提供额外的安全保障，提高模型的整体安全性。

📄 摘要（原文）

Large Vision-Language Models (LVLMs) have made significant strides in multimodal comprehension, thanks to extensive pre-training and fine-tuning on large-scale visual datasets. However, despite their robust textual safety mechanisms, they remain vulnerable to harmful visual inputs. Existing safeguards-typically relying on pre-filtering or fine-tuning-incur high costs and diminish overall utility. To address this critical vulnerability, we introduce SafeCLIP, a lightweight method that leverages LVLMs inherent multimodal alignment for zero-shot toxic image detection. By projecting CLIPs discarded CLS token into its text space and matching it with toxic descriptors, SafeCLIP detects harmful content without any architectural changes-adding minimal latency and enabling dynamic safety corrections during inference and fine-tuning.Experiments show that SafeCLIP achieves a 66.9% defense success rate with only 3.2% false positive rate and 7.2% overhead. In contrast, state-of-the-art methods achieve 52.9% success but have a 10.7% false positive rate and 210% overhead. Our work demonstrates that leveraging inherent multimodal alignment can yield efficient, low-cost LVLM safety. Code is available at anonymous.4open.science/r/safeclip-2C01.

Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理