Efficient LLM-Jailbreaking via Multimodal-LLM Jailbreak

📄 arXiv: 2405.20015v3 📥 PDF

作者: Haoxuan Ji, Zheng Lin, Zhenxing Niu, Xinbo Gao, Gang Hua

分类: cs.AI, cs.CL

发布日期: 2024-05-30 (更新: 2025-11-30)


💡 一句话要点

提出一种基于多模态LLM越狱的高效LLM越狱方法,提升攻击效率和泛化性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM越狱 多模态学习 安全性评估 对抗攻击 图像-文本匹配

📋 核心要点

  1. 现有LLM越狱方法效率较低,且难以泛化到不同类型的有害查询。
  2. 通过构建MLLM并进行越狱,再将越狱嵌入转化为文本后缀,间接攻击LLM,提高效率。
  3. 提出图像-文本语义匹配方案,选择合适的初始输入,提升攻击成功率和泛化能力。

📝 摘要(中文)

本文研究针对大型语言模型(LLM)的越狱攻击,旨在诱导LLM响应有害用户查询并生成不良内容。与直接面向LLM的越狱方法不同,本文首先构建一个基于目标LLM的多模态大型语言模型(MLLM)。然后,执行高效的MLLM越狱并获得越狱嵌入。最后,将该嵌入转换为文本越狱后缀,以执行目标LLM的越狱。与直接LLM越狱方法相比,本文的间接越狱方法更有效,因为MLLM比纯LLM更容易受到越狱攻击。此外,为了提高越狱的攻击成功率,本文提出了一种图像-文本语义匹配方案来识别合适的初始输入。大量实验表明,本文的方法在效率和有效性方面均优于当前最先进的越狱方法。此外,本文的方法表现出卓越的跨类泛化能力。

🔬 方法详解

问题定义:论文旨在解决直接攻击LLM进行越狱效率低下的问题。现有的LLM越狱方法通常直接针对LLM进行攻击,但由于LLM本身的防御机制,攻击成功率较低,且需要大量的计算资源和时间。此外,这些方法往往难以泛化到不同类型的有害查询,鲁棒性较差。

核心思路:论文的核心思路是利用MLLM比纯LLM更容易受到攻击的特性,通过先对MLLM进行越狱,然后将MLLM的越狱结果迁移到LLM上。具体来说,首先构建一个基于目标LLM的MLLM,然后对MLLM进行越狱,得到一个越狱嵌入,最后将该嵌入转换为文本后缀,用于攻击目标LLM。这样可以显著提高越狱的效率和成功率。

技术框架:整体框架包括三个主要阶段:1) MLLM构建:基于目标LLM构建MLLM,例如通过添加视觉编码器;2) MLLM越狱:利用高效的越狱方法对MLLM进行攻击,得到越狱嵌入;3) 嵌入转换与LLM攻击:将越狱嵌入转换为文本后缀,并将其添加到用户查询中,以攻击目标LLM。图像-文本语义匹配模块用于选择合适的初始输入,提高攻击成功率。

关键创新:最重要的技术创新点是利用MLLM作为中间媒介进行LLM越狱。与直接攻击LLM相比,这种间接攻击方法更有效,因为MLLM更容易受到攻击。此外,图像-文本语义匹配方案也是一个创新点,它可以帮助选择更有效的初始输入,提高攻击成功率。

关键设计:图像-文本语义匹配方案通过计算图像和文本之间的语义相似度来选择合适的初始输入。具体的实现细节包括:使用预训练的视觉编码器提取图像特征,使用预训练的文本编码器提取文本特征,然后计算图像特征和文本特征之间的余弦相似度。选择相似度最高的图像-文本对作为初始输入。越狱嵌入的转换方法未知,论文中没有详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在越狱攻击的效率和有效性方面均优于当前最先进的方法。具体性能数据未知,但摘要中提到该方法表现出卓越的跨类泛化能力,意味着其可以有效地攻击不同类型的有害查询,具有更强的鲁棒性。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性,防御恶意攻击和有害内容生成。通过高效的越狱方法,可以更快速地发现LLM的潜在漏洞,并采取相应的安全措施。此外,该方法还可以用于开发更安全的LLM,防止其被用于非法或不道德的目的。

📄 摘要(原文)

This paper focuses on jailbreaking attacks against large language models (LLMs), eliciting them to generate objectionable content in response to harmful user queries. Unlike previous LLM-jailbreak methods that directly orient to LLMs, our approach begins by constructing a multimodal large language model (MLLM) built upon the target LLM. Subsequently, we perform an efficient MLLM jailbreak and obtain a jailbreaking embedding. Finally, we convert the embedding into a textual jailbreaking suffix to carry out the jailbreak of target LLM. Compared to the direct LLM-jailbreak methods, our indirect jailbreaking approach is more efficient, as MLLMs are more vulnerable to jailbreak than pure LLM. Additionally, to improve the attack success rate of jailbreak, we propose an image-text semantic matching scheme to identify a suitable initial input. Extensive experiments demonstrate that our approach surpasses current state-of-the-art jailbreak methods in terms of both efficiency and effectiveness. Moreover, our approach exhibits superior cross-class generalization abilities.