JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks
作者: Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao
分类: cs.CR, cs.AI, cs.CL
发布日期: 2024-04-03 (更新: 2024-11-24)
💡 一句话要点
提出JailBreakV基准以评估多模态大语言模型的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 安全性评估 破解攻击 对抗样本 鲁棒性测试
📋 核心要点
- 现有的多模态大语言模型在面对恶意输入时存在安全性不足的问题,尤其是对文本和图像输入的脆弱性。
- 本文提出JailBreakV-28K基准,旨在评估LLM破解技术在多模态大语言模型中的转移性,从而评估其鲁棒性。
- 实验结果表明,10个开源MLLMs在面对从LLMs转移的攻击时,攻击成功率显著较高,显示出其安全性亟待改进。
📝 摘要(中文)
随着多模态大语言模型(MLLMs)的快速发展,如何保护这些模型免受恶意输入的攻击并使其符合人类价值观已成为一项重要挑战。本文探讨了一个未被充分研究的问题,即成功破解大语言模型(LLMs)的技术是否同样适用于破解MLLMs。为此,我们提出了JailBreakV-28K,这是一个开创性的基准,旨在评估LLM破解技术在MLLMs中的可转移性,从而评估MLLMs对各种破解攻击的鲁棒性。我们利用2000个恶意查询生成了20000个基于文本的破解提示,并从最近的MLLMs破解攻击中获得了8000个基于图像的输入,构建了一个包含28000个测试案例的综合数据集。对10个开源MLLMs的评估显示,从LLMs转移的攻击成功率(ASR)显著较高,突显了MLLMs在文本处理能力方面的关键脆弱性。我们的研究结果强调了未来研究在文本和视觉输入方面解决MLLMs对齐脆弱性的紧迫性。
🔬 方法详解
问题定义:本文旨在解决多模态大语言模型(MLLMs)在面对恶意输入时的安全性问题。现有方法未能充分评估LLM破解技术在MLLMs中的有效性,导致MLLMs在文本和图像输入方面存在明显脆弱性。
核心思路:我们提出JailBreakV-28K基准,通过构建一个包含28000个测试案例的数据集,评估LLM破解技术在MLLMs中的转移性,从而揭示其鲁棒性。
技术框架:整体架构包括数据集构建、攻击生成和评估三个主要模块。首先,利用2000个恶意查询生成20000个文本破解提示,并从MLLMs破解攻击中提取8000个图像输入。然后,评估10个开源MLLMs的攻击成功率。
关键创新:本研究的关键创新在于引入JailBreakV-28K基准,首次系统性地评估了LLM破解技术在MLLMs中的转移性,填补了这一领域的研究空白。
关键设计:在数据集构建中,采用了先进的破解攻击技术,并确保生成的攻击样本涵盖多种对抗场景,以全面评估MLLMs的安全性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,10个开源多模态大语言模型在面对从大语言模型转移的攻击时,攻击成功率显著较高,表明其存在严重的安全隐患。这一发现强调了对多模态模型进行安全性改进的必要性。
🎯 应用场景
该研究的潜在应用领域包括安全性评估、模型对抗训练和多模态系统的设计。通过识别和修复多模态大语言模型的脆弱性,可以提高其在实际应用中的安全性和可靠性,推动智能系统的安全发展。
📄 摘要(原文)
With the rapid advancements in Multimodal Large Language Models (MLLMs), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we investigate an important and unexplored question of whether techniques that successfully jailbreak Large Language Models (LLMs) can be equally effective in jailbreaking MLLMs. To explore this issue, we introduce JailBreakV-28K, a pioneering benchmark designed to assess the transferability of LLM jailbreak techniques to MLLMs, thereby evaluating the robustness of MLLMs against diverse jailbreak attacks. Utilizing a dataset of 2, 000 malicious queries that is also proposed in this paper, we generate 20, 000 text-based jailbreak prompts using advanced jailbreak attacks on LLMs, alongside 8, 000 image-based jailbreak inputs from recent MLLMs jailbreak attacks, our comprehensive dataset includes 28, 000 test cases across a spectrum of adversarial scenarios. Our evaluation of 10 open-source MLLMs reveals a notably high Attack Success Rate (ASR) for attacks transferred from LLMs, highlighting a critical vulnerability in MLLMs that stems from their text-processing capabilities. Our findings underscore the urgent need for future research to address alignment vulnerabilities in MLLMs from both textual and visual inputs.