Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
作者: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
分类: cs.LG, cs.CL, cs.CR
发布日期: 2024-04-04 (更新: 2024-12-15)
备注: technical report; update code repo link
🔗 代码/项目: GITHUB
💡 一句话要点
构建全面评估数据集以提升GPT-4V对多模态攻击的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 监狱突破攻击 大型语言模型 多模态模型 安全性评估 红队实验
📋 核心要点
- 现有的监狱突破攻击方法缺乏统一的评估基准,导致性能复现和公平比较困难。
- 本研究构建了一个包含1445个问题的评估数据集,并在多种LLMs和MLLMs上进行红队实验。
- 实验结果表明,GPT-4V在抵御攻击方面表现优于开源模型,视觉攻击的迁移性相对较低。
📝 摘要(中文)
本研究针对大型语言模型(LLMs)和多模态大型语言模型(MLLMs)面临的监狱突破攻击,提出了一种全面的评估数据集,包含1445个有害问题,涵盖11种不同的安全策略。通过对11种不同的LLMs和MLLMs进行广泛的红队实验,发现GPT-4V在抵御攻击方面表现优于开源模型,同时揭示了视觉攻击方法的迁移性相对有限。该数据集和代码可在GitHub上获取。
🔬 方法详解
问题定义:本研究旨在解决大型语言模型和多模态模型在面对监狱突破攻击时的安全性评估问题。现有方法缺乏统一的评估标准,导致难以进行有效的性能比较和复现。
核心思路:通过构建一个全面的评估数据集,包含多种攻击场景和问题类型,来系统性地评估不同模型的安全性。该方法不仅关注文本输入,还扩展到视觉输入的攻击。
技术框架:研究首先构建了一个包含1445个问题的评估数据集,随后在11种不同的LLMs和MLLMs上进行红队实验。实验结果通过深度分析进行比较,揭示模型的安全性和鲁棒性。
关键创新:本研究的创新点在于构建了一个全面的评估数据集,并对闭源的最先进模型进行了系统评估,填补了现有研究的空白。与以往研究相比,本研究提供了更为全面和系统的安全性评估。
关键设计:在数据集构建过程中,考虑了11种不同的安全策略,确保问题的多样性和复杂性。同时,实验中采用了多种评估指标,以全面反映模型的鲁棒性和安全性。
📊 实验亮点
实验结果显示,GPT-4V在抵御监狱突破攻击方面表现优于所有开源模型,尤其在视觉攻击的抵御能力上,显示出其鲁棒性。此外,Llama2和Qwen-VL-Chat在开源模型中表现较为突出,视觉攻击的迁移性相对较低,表明文本和视觉输入的攻击机制存在显著差异。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的安全性评估、人工智能系统的安全防护以及多模态模型的开发。通过提升模型的安全性,可以有效防止潜在的攻击,确保人工智能技术的可靠性和安全性,具有重要的实际价值和未来影响。
📄 摘要(原文)
Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found https://github.com/chenxshuo/RedTeamingGPT4V