Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models

📄 arXiv: 2407.21659v4 📥 PDF

作者: Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang

分类: cs.CL

发布日期: 2024-07-31 (更新: 2024-10-17)

备注: 12 pages, 9 figures, EMNLP 2024 Findings


💡 一句话要点

提出CIDER,利用跨模态信息检测多模态大语言模型中的越狱攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 越狱攻击检测 跨模态信息 安全性 对抗样本

📋 核心要点

  1. 现有MLLM防御越狱攻击的方法通常需要修改模型结构或消耗大量计算资源,存在局限性。
  2. CIDER利用多模态信息中的跨模态相似性,检测恶意扰动的图像输入,无需修改模型且计算成本低。
  3. 实验表明CIDER能有效检测越狱攻击,且具有良好的迁移性,适用于白盒和黑盒MLLM。

📝 摘要(中文)

多模态大语言模型(MLLM)扩展了LLM的能力,使其能够全面理解多模态信息,并在许多以视觉为中心任务中取得了显著的性能。然而,最近的研究表明,这些模型容易受到越狱攻击,这是一种利用性技术,恶意用户可以破坏目标模型的安全对齐,并生成误导性和有害的答案。这种潜在的威胁是由LLM固有的漏洞和视觉输入引入的更大攻击范围造成的。为了提高MLLM对抗越狱攻击的安全性,研究人员开发了各种防御技术。然而,这些方法要么需要修改模型的内部结构,要么需要在推理阶段消耗大量的计算资源。多模态信息是一把双刃剑。虽然它增加了攻击的风险,但它也提供了可以加强安全措施的额外数据。受此启发,我们提出了跨模态信息检测器(CIDER),这是一种即插即用的越狱检测器,旨在利用有害查询和对抗图像之间的跨模态相似性来识别恶意扰动的图像输入。CIDER独立于目标MLLM,并且需要更少的计算成本。大量的实验结果证明了CIDER的有效性和效率,以及它对白盒和黑盒MLLM的可迁移性。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)容易受到越狱攻击的问题。现有的防御方法通常需要修改模型内部结构或在推理阶段消耗大量计算资源,这限制了它们在实际应用中的可行性。此外,如何有效利用多模态信息本身进行防御也是一个挑战。

核心思路:论文的核心思路是利用多模态信息之间的跨模态相似性来检测越狱攻击。具体来说,恶意构造的对抗图像通常与用户输入的有害查询之间存在一定的语义关联。通过检测这种关联,可以判断图像是否被恶意篡改,从而实现越狱攻击的检测。

技术框架:CIDER(Cross-modality Information DEtectoR)是一个即插即用的越狱检测器,它独立于目标MLLM。其主要流程包括:1) 提取用户查询的文本特征;2) 提取输入图像的视觉特征;3) 计算文本特征和视觉特征之间的相似度;4) 根据相似度判断是否存在越狱攻击。

关键创新:CIDER的关键创新在于它利用了跨模态信息之间的相似性进行越狱检测,而无需修改目标MLLM的内部结构。这种方法具有更高的灵活性和可移植性,并且计算成本较低。此外,CIDER的设计思路也为其他多模态安全问题提供了新的解决思路。

关键设计:CIDER的关键设计包括:1) 使用预训练的文本编码器(如BERT)提取用户查询的文本特征;2) 使用预训练的视觉编码器(如CLIP)提取输入图像的视觉特征;3) 使用余弦相似度或其他相似度度量方法计算文本特征和视觉特征之间的相似度;4) 设置一个阈值,当相似度低于该阈值时,则判定存在越狱攻击。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CIDER能够有效检测MLLM中的越狱攻击,且具有较低的计算成本。CIDER在白盒和黑盒MLLM上都表现出良好的迁移性,无需针对特定模型进行训练。具体性能数据未知,但论文强调了其有效性和效率。

🎯 应用场景

CIDER可应用于各种多模态大语言模型的安全防护,例如智能客服、内容审核、自动驾驶等领域。通过检测恶意图像输入,可以有效防止模型生成有害或误导性内容,提高系统的安全性和可靠性。未来,该技术可以进一步扩展到其他多模态安全问题,例如对抗样本检测、恶意内容识别等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) extend the capacity of LLMs to understand multimodal information comprehensively, achieving remarkable performance in many vision-centric tasks. Despite that, recent studies have shown that these models are susceptible to jailbreak attacks, which refer to an exploitative technique where malicious users can break the safety alignment of the target model and generate misleading and harmful answers. This potential threat is caused by both the inherent vulnerabilities of LLM and the larger attack scope introduced by vision input. To enhance the security of MLLMs against jailbreak attacks, researchers have developed various defense techniques. However, these methods either require modifications to the model's internal structure or demand significant computational resources during the inference phase. Multimodal information is a double-edged sword. While it increases the risk of attacks, it also provides additional data that can enhance safeguards. Inspired by this, we propose Cross-modality Information DEtectoR (CIDER), a plug-and-play jailbreaking detector designed to identify maliciously perturbed image inputs, utilizing the cross-modal similarity between harmful queries and adversarial images. CIDER is independent of the target MLLMs and requires less computation cost. Extensive experimental results demonstrate the effectiveness and efficiency of CIDER, as well as its transferability to both white-box and black-box MLLMs.