Jailbreaking Multimodal Large Language Models using Multi-Clip Video

作者: Choongwon Kang, Seungjong Sun, Hyunmin Jun, Jang Hyun Kim

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-06-01

备注: 27 pages, 20 figures, Accepted to the Main Conference of ACL 2026

💡 一句话要点

提出Multi-Clip Video SafetyBench，评估视频输入多样性对多模态大语言模型越狱攻击的影响。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视频越狱攻击 安全对齐 视频内容多样性 MCV SafetyBench

📋 核心要点

多模态大语言模型存在被恶意利用的风险，通过视觉输入绕过安全对齐机制是主要威胁。
论文提出Multi-Clip Video SafetyBench数据集，通过控制视频片段的多样性来研究MLLM的脆弱性。
实验表明，视频片段数量、动态性及上下文多样性均会显著影响MLLM的越狱成功率。

📝 摘要（中文）

随着多模态大语言模型(MLLMs)在处理视频输入方面的进步，其被恶意滥用的可能性引发了关注。先前的越狱研究表明，MLLMs中的安全对齐可以通过视觉输入绕过，但视频输入的哪些属性会导致这种漏洞仍然不清楚。为了解决这一差距，我们引入了Multi-Clip Video (MCV) SafetyBench，这是一个包含2920个视频的数据集，旨在评估视频输入的多样性如何影响MLLMs的漏洞。每个视频由多个短片组成，这些短片描绘了与有害查询相关的不同上下文。对八个代表性视频MLLMs的实验表明，攻击成功率始终随着剪辑数量的增加而增加。我们的结果进一步表明，视频模态（1）比图像模态更脆弱，（2）对动态视频比对静态视频更脆弱，并且（3）当视频包含更多不同的上下文时更脆弱。基于这些发现，我们提出了一种利用图像模态相对鲁棒性的防御策略。

🔬 方法详解

问题定义：现有的多模态大语言模型(MLLMs)在处理视频输入时，容易受到恶意攻击，即“越狱”。攻击者可以通过精心设计的视频输入，诱导模型生成有害或不当的回复。现有的研究主要集中在图像模态的攻击，对于视频模态的脆弱性，特别是视频内容多样性对攻击成功率的影响，缺乏系统性的研究和分析。

核心思路：论文的核心思路是通过构建一个可控的视频数据集，系统性地研究视频内容多样性与MLLM越狱攻击成功率之间的关系。通过控制视频中片段的数量、动态性和上下文多样性，来评估不同因素对模型安全性的影响。

技术框架：论文构建了Multi-Clip Video (MCV) SafetyBench数据集，包含2920个视频。每个视频由多个短视频片段组成，这些片段与特定的有害查询相关。研究人员通过改变视频片段的数量、片段的动态程度（静态或动态）以及片段所包含的上下文多样性，来生成不同的视频样本。然后，使用这些视频样本对多个代表性的视频MLLMs进行攻击实验，并分析攻击成功率与视频属性之间的关系。最后，基于实验结果，提出了一种利用图像模态鲁棒性的防御策略。

关键创新：论文的关键创新在于：1) 提出了MCV SafetyBench数据集，该数据集专门用于评估视频输入多样性对MLLM安全性的影响；2) 系统性地研究了视频片段数量、动态性和上下文多样性对MLLM越狱攻击成功率的影响，揭示了视频模态的脆弱性；3) 基于实验结果，提出了一种利用图像模态鲁棒性的防御策略。

关键设计：MCV SafetyBench数据集的关键设计在于对视频片段属性的控制。研究人员精心挑选和组合视频片段，以确保每个视频都与特定的有害查询相关，并且在片段数量、动态性和上下文多样性方面存在差异。此外，实验中使用了多个代表性的视频MLLMs，以确保结果的泛化性。防御策略方面，具体的技术细节（如图像模态的具体使用方式）在摘要中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，攻击成功率随着视频片段数量的增加而显著提高。视频模态比图像模态更脆弱，动态视频比静态视频更脆弱，包含更多不同上下文的视频也更容易导致越狱。这些发现为设计更有效的防御策略提供了重要依据。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型的安全性，尤其是在视频内容理解和安全过滤方面。通过了解视频输入的脆弱性，可以开发更有效的防御机制，防止模型被恶意利用，从而保障用户安全和模型的可信度。该研究对于开发安全可靠的视频分析系统具有重要意义。

📄 摘要（原文）

As multimodal large language models (MLLMs) have advanced to process video inputs, concerns have emerged about their potential for malicious misuse. Prior jailbreak studies have shown that safety alignment in MLLMs can be bypassed through visual inputs, yet it remains unclear which properties of video inputs induce this vulnerability. To address this gap, we introduce Multi-Clip Video (MCV) SafetyBench, a dataset of 2,920 videos designed to evaluate how the diversity of video inputs affects the vulnerability of MLLMs. Each video consists of multiple short clips depicting diverse contexts related to a harmful query. Experiments on eight representative video MLLMs show that attack success consistently increases with the number of clips. Our results further indicate that the video modality is (1) more vulnerable than the image modality, (2) more vulnerable to dynamic videos than to static videos, and (3) more vulnerable when videos contain more diverse contexts. Building on these findings, we propose a defense strategy that leverages the relative robustness of the image modality.

Jailbreaking Multimodal Large Language Models using Multi-Clip Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理