JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering

📄 arXiv: 2508.05087v1 📥 PDF

作者: Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang

分类: cs.MM, cs.AI, cs.CL, cs.CR

发布日期: 2025-08-07

备注: 10 pages, 3 tables, 2 figures, to appear in the Proceedings of the 33rd ACM International Conference on Multimedia (MM '25)

DOI: 10.1145/3746027.3754561

🔗 代码/项目: GITHUB


💡 一句话要点

提出JPS以解决多模态大语言模型的越狱攻击问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 越狱攻击 多模态大语言模型 对抗性学习 视觉扰动 文本引导 安全性评估 机器学习

📋 核心要点

  1. 现有的越狱攻击方法往往只关注攻击成功率,忽视了生成内容的质量和是否满足攻击者的真实意图。
  2. 本文提出的JPS方法结合了视觉扰动与文本引导,通过多智能体系统优化引导提示,提升了攻击的有效性和响应质量。
  3. 实验结果显示,JPS在多个基准测试中在ASR和MIFR上均超越了现有方法,验证了其有效性和创新性。

📝 摘要(中文)

针对多模态大语言模型(MLLMs)的越狱攻击,现有研究主要关注攻击成功率(ASR),而忽视了生成响应是否满足攻击者的恶意意图。为了解决这一问题,本文提出了JPS(越狱多模态大语言模型),通过视觉扰动与文本引导的协作实现越狱。JPS利用目标导向的对抗性图像扰动来有效绕过安全过滤,同时通过多智能体系统优化的“引导提示”来具体引导LLM响应以满足攻击者的意图。实验结果表明,JPS在多个MLLM和基准测试中在ASR和恶意意图实现率(MIFR)上均设立了新的最先进水平。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型的越狱攻击问题,现有方法往往只关注攻击成功率(ASR),而忽视了生成内容的质量和是否满足攻击者的恶意意图,导致输出内容质量低下。

核心思路:JPS通过结合视觉扰动与文本引导的方式,利用目标导向的对抗性图像扰动和优化的引导提示,旨在实现更高质量的越狱攻击,确保生成内容符合攻击者的意图。

技术框架:JPS的整体架构包括两个主要模块:视觉扰动模块和文本引导模块。视觉扰动模块通过对抗性图像扰动来绕过安全过滤,而文本引导模块则通过多智能体系统优化的引导提示来引导LLM生成符合攻击者意图的响应。

关键创新:JPS的主要创新在于将视觉和文本的协同优化引入越狱攻击中,形成了一个迭代的共优化过程,显著提高了攻击的成功率和生成内容的质量。与现有方法相比,JPS不仅关注攻击成功率,还引入了恶意意图实现率(MIFR)作为评估标准。

关键设计:在设计中,JPS采用了目标导向的对抗性图像扰动,确保视觉扰动能够有效绕过安全机制。同时,文本引导模块的引导提示通过多智能体系统进行优化,以确保生成的响应能够更好地满足攻击者的意图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JPS在多个基准测试中在攻击成功率(ASR)和恶意意图实现率(MIFR)上均设立了新的最先进水平,具体提升幅度超过了现有方法,验证了其有效性和创新性。

🎯 应用场景

该研究的潜在应用领域包括网络安全、对抗性机器学习和AI内容生成等。通过提升对多模态大语言模型的攻击能力,JPS可以帮助研究人员更好地理解和防御潜在的安全威胁,推动安全AI系统的设计与实现。

📄 摘要(原文)

Jailbreak attacks against multimodal large language Models (MLLMs) are a significant research focus. Current research predominantly focuses on maximizing attack success rate (ASR), often overlooking whether the generated responses actually fulfill the attacker's malicious intent. This oversight frequently leads to low-quality outputs that bypass safety filters but lack substantial harmful content. To address this gap, we propose JPS, \underline{J}ailbreak MLLMs with collaborative visual \underline{P}erturbation and textual \underline{S}teering, which achieves jailbreaks via corporation of visual image and textually steering prompt. Specifically, JPS utilizes target-guided adversarial image perturbations for effective safety bypass, complemented by "steering prompt" optimized via a multi-agent system to specifically guide LLM responses fulfilling the attackers' intent. These visual and textual components undergo iterative co-optimization for enhanced performance. To evaluate the quality of attack outcomes, we propose the Malicious Intent Fulfillment Rate (MIFR) metric, assessed using a Reasoning-LLM-based evaluator. Our experiments show JPS sets a new state-of-the-art in both ASR and MIFR across various MLLMs and benchmarks, with analyses confirming its efficacy. Codes are available at \href{https://github.com/thu-coai/JPS}{https://github.com/thu-coai/JPS}. \color{warningcolor}{Warning: This paper contains potentially sensitive contents.}