Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation
作者: Zhiheng Li, Zongyang Ma, Yuntong Pan, Ziqi Zhang, Xiaolei Lv, Bo Li, Jun Gao, Jianing Zhang, Chunfeng Yuan, Bing Li, Weiming Hu
分类: cs.CV
发布日期: 2026-04-08
备注: Accepted to ACL 2026. 19 pages, 6 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出对抗性走私攻击,揭示MLLM内容审核中的安全漏洞
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 内容审核 对抗性攻击 对抗性样本 安全漏洞
📋 核心要点
- 现有MLLM内容审核易受对抗性攻击,攻击将有害内容伪装成AI难以解析的视觉形式,绕过检测。
- 提出对抗性走私攻击,利用人类视觉能力与AI理解能力的差异,将恶意信息隐藏在图像中。
- 构建SmuggleBench基准测试,实验证明现有先进MLLM模型对此类攻击防御能力不足,攻击成功率高。
📝 摘要(中文)
本文揭示了多模态大型语言模型(MLLM)在自动化内容审核中面临的严重威胁:对抗性走私攻击。与对抗性扰动和对抗性越狱不同,对抗性走私利用人与AI能力之间的差距,将有害内容编码成人类可读但AI难以理解的视觉格式,从而逃避自动检测并传播有害内容。我们将走私攻击分为两种途径:(1)感知盲区,扰乱文本识别;(2)推理封锁,即使成功识别文本也抑制语义理解。为了评估这种威胁,我们构建了首个综合基准SmuggleBench,包含1700个对抗性走私攻击实例。在SmuggleBench上的评估表明,包括GPT-5在内的专有模型和包括Qwen3-VL在内的开源模型都容易受到这种威胁,攻击成功率(ASR)超过90%。通过感知和推理的角度分析漏洞,我们确定了三个根本原因:视觉编码器的有限能力、OCR的鲁棒性差距以及领域特定对抗样本的稀缺性。我们初步探索了缓解策略,研究了测试时缩放(通过CoT)和对抗训练(通过SFT)来缓解这种威胁的潜力。代码已公开。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在内容审核中存在的安全漏洞,即对抗性走私攻击。现有的MLLM内容审核机制容易被设计巧妙的对抗样本绕过,这些样本利用了人类视觉感知和AI理解之间的差异,使得有害信息能够以人类可读但机器难以解析的形式传播。
核心思路:核心思路是利用人类和AI在感知和推理能力上的差距,设计对抗性样本,将有害信息“走私”到MLLM的内容审核系统中。通过构造特定的视觉模式,使得人类可以轻松理解图像中的文本信息,而MLLM则难以正确识别或理解这些信息,从而绕过内容审核。
技术框架:整体框架包括两个主要的攻击途径:感知盲区和推理封锁。感知盲区攻击旨在干扰MLLM的文本识别能力,例如通过扭曲文本、添加噪声等方式,使得OCR模块无法正确提取文本信息。推理封锁攻击则是在MLLM能够成功识别文本的情况下,通过语义混淆或逻辑干扰,阻止MLLM正确理解文本的含义。SmuggleBench基准测试用于评估各种MLLM模型在对抗性走私攻击下的性能。
关键创新:最重要的创新点在于提出了对抗性走私攻击的概念,并将其应用于MLLM内容审核领域。与传统的对抗性攻击(如对抗性扰动和对抗性越狱)不同,对抗性走私攻击更侧重于利用人类和AI在认知能力上的差异,从而实现更隐蔽的攻击效果。
关键设计:关键设计包括:(1)针对感知盲区的攻击方法,例如使用特定的字体、颜色、背景等来干扰OCR模块;(2)针对推理封锁的攻击方法,例如使用歧义性的语言、反讽、隐喻等来混淆MLLM的语义理解;(3)SmuggleBench基准测试的设计,包括各种类型的对抗性走私攻击实例,以及评估指标(如攻击成功率ASR)。初步的缓解策略探索包括测试时缩放(CoT)和对抗训练(SFT)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,包括GPT-5和Qwen3-VL在内的先进MLLM模型在SmuggleBench基准测试上表现出较高的脆弱性,对抗性走私攻击的成功率超过90%。这表明现有MLLM内容审核系统在防御此类攻击方面存在显著不足,需要进一步的研究和改进。
🎯 应用场景
该研究成果可应用于提升多模态内容审核系统的安全性,尤其是在社交媒体、在线论坛等平台。通过了解MLLM在对抗性走私攻击下的脆弱性,可以开发更鲁棒的内容审核算法,有效阻止有害信息的传播,维护网络环境的健康。未来的研究可以进一步探索更有效的防御策略,例如结合人类审核和AI审核,以及开发更强大的多模态理解模型。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) are increasingly being deployed as automated content moderators. Within this landscape, we uncover a critical threat: Adversarial Smuggling Attacks. Unlike adversarial perturbations (for misclassification) and adversarial jailbreaks (for harmful output generation), adversarial smuggling exploits the Human-AI capability gap. It encodes harmful content into human-readable visual formats that remain AI-unreadable, thereby evading automated detection and enabling the dissemination of harmful content. We classify smuggling attacks into two pathways: (1) Perceptual Blindness, disrupting text recognition; and (2) Reasoning Blockade, inhibiting semantic understanding despite successful text recognition. To evaluate this threat, we constructed SmuggleBench, the first comprehensive benchmark comprising 1,700 adversarial smuggling attack instances. Evaluations on SmuggleBench reveal that both proprietary (e.g., GPT-5) and open-source (e.g., Qwen3-VL) state-of-the-art models are vulnerable to this threat, producing Attack Success Rates (ASR) exceeding 90%. By analyzing the vulnerability through the lenses of perception and reasoning, we identify three root causes: the limited capabilities of vision encoders, the robustness gap in OCR, and the scarcity of domain-specific adversarial examples. We conduct a preliminary exploration of mitigation strategies, investigating the potential of test-time scaling (via CoT) and adversarial training (via SFT) to mitigate this threat. Our code is publicly available at https://github.com/zhihengli-casia/smugglebench.