Can Large Language Models Automatically Jailbreak GPT-4V?

📄 arXiv: 2407.16686v2 📥 PDF

作者: Yuanwei Wu, Yue Huang, Yixin Liu, Xiang Li, Pan Zhou, Lichao Sun

分类: cs.CL

发布日期: 2024-07-23 (更新: 2024-08-23)

备注: TrustNLP@NAACL2024 (Fourth Workshop on Trustworthy Natural Language Processing)


💡 一句话要点

提出AutoJailbreak,利用LLM自动破解GPT-4V的安全防护,攻击成功率超95.3%。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GPT-4V 大型语言模型 安全漏洞 越狱攻击 红队测试

📋 核心要点

  1. GPT-4V虽然功能强大,但存在隐私泄露的安全隐患,需要更有效的安全防护机制。
  2. AutoJailbreak利用LLM进行红队测试,优化越狱提示,并结合弱到强的上下文学习来提升攻击效率。
  3. 实验结果表明,AutoJailbreak的攻击成功率超过95.3%,显著优于传统方法,揭示了LLM潜在的安全风险。

📝 摘要(中文)

GPT-4V在整合和处理多模态信息方面表现出色,但其人脸识别能力也引发了新的隐私泄露安全问题。尽管研究人员通过RLHF或预处理过滤器进行了安全对齐,但仍然存在可被利用的漏洞。本研究提出了一种名为AutoJailbreak的创新自动越狱技术,该技术受到提示优化的启发。我们利用大型语言模型(LLM)进行红队测试,以改进越狱提示,并采用弱到强的上下文学习提示来提高效率。此外,我们提出了一种有效的搜索方法,该方法结合了提前停止,以最大限度地减少优化时间和token消耗。实验表明,AutoJailbreak显著超越了传统方法,攻击成功率(ASR)超过95.3%。这项研究揭示了加强GPT-4V安全性的重要性,并强调了LLM在破坏GPT-4V完整性方面的潜在风险。

🔬 方法详解

问题定义:论文旨在解决GPT-4V的安全漏洞问题,特别是其在人脸识别方面可能存在的隐私泄露风险。现有的安全对齐方法,如RLHF和预处理过滤器,仍然存在可被利用的漏洞,缺乏自动化的漏洞挖掘和利用手段。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成和优化能力,自动生成和优化越狱提示,从而绕过GPT-4V的安全防护机制。通过红队测试的方式,不断迭代和改进提示,最终找到能够成功攻击GPT-4V的有效提示。

技术框架:AutoJailbreak的技术框架主要包含以下几个阶段:1) 使用LLM生成初始越狱提示;2) 使用生成的提示攻击GPT-4V;3) 根据攻击结果,使用LLM对提示进行优化;4) 使用弱到强的上下文学习提示来提高效率;5) 采用提前停止策略,减少优化时间和token消耗。整个过程是一个迭代优化的过程,直到找到有效的越狱提示或达到预设的停止条件。

关键创新:AutoJailbreak的关键创新在于其自动化和自适应的越狱提示生成和优化过程。与传统的手工构造越狱提示的方法相比,AutoJailbreak能够更高效地发现和利用GPT-4V的安全漏洞。此外,结合弱到强的上下文学习和提前停止策略,进一步提高了攻击效率和降低了计算成本。

关键设计:AutoJailbreak的关键设计包括:1) 使用特定的LLM作为红队测试者,负责生成和优化越狱提示;2) 设计合适的奖励函数,用于评估提示的攻击效果;3) 采用弱到强的上下文学习提示,利用少量样本进行快速学习;4) 设置提前停止条件,避免过度优化和资源浪费。具体的参数设置和损失函数选择可能需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AutoJailbreak在GPT-4V上的实验结果表明,其攻击成功率(ASR)超过95.3%,显著优于传统的越狱方法。该研究证明了LLM在自动化攻击方面的潜力,并揭示了GPT-4V在安全防护方面存在的不足。实验结果强调了加强多模态大模型安全性的重要性。

🎯 应用场景

该研究成果可应用于评估和提升多模态大模型的安全性,帮助开发者发现和修复潜在的安全漏洞。此外,该技术也可用于构建更强大的安全防护机制,防止恶意用户利用LLM进行攻击。未来,该研究或可扩展到其他类型的AI系统,提高整体的安全性。

📄 摘要(原文)

GPT-4V has attracted considerable attention due to its extraordinary capacity for integrating and processing multimodal information. At the same time, its ability of face recognition raises new safety concerns of privacy leakage. Despite researchers' efforts in safety alignment through RLHF or preprocessing filters, vulnerabilities might still be exploited. In our study, we introduce AutoJailbreak, an innovative automatic jailbreak technique inspired by prompt optimization. We leverage Large Language Models (LLMs) for red-teaming to refine the jailbreak prompt and employ weak-to-strong in-context learning prompts to boost efficiency. Furthermore, we present an effective search method that incorporates early stopping to minimize optimization time and token expenditure. Our experiments demonstrate that AutoJailbreak significantly surpasses conventional methods, achieving an Attack Success Rate (ASR) exceeding 95.3\%. This research sheds light on strengthening GPT-4V security, underscoring the potential for LLMs to be exploited in compromising GPT-4V integrity.