A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

📄 arXiv: 2604.03995 📥 PDF

作者: Tianle Chen, Deepti Ghadiyaram

分类: cs.CV, cs.SD

发布日期: 2026-04-07


💡 一句话要点

提出多模态排版攻击,揭示视听推理大模型在跨模态对抗中的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 对抗攻击 大语言模型 跨模态推理 安全性 鲁棒性 排版攻击

📋 核心要点

  1. 现有研究主要关注单模态攻击,忽略了多模态大语言模型在跨模态对抗中的潜在脆弱性。
  2. 提出多模态排版攻击,通过协调音频、视觉和文本扰动,系统性地研究MLLM的跨模态安全性。
  3. 实验表明,协调的多模态攻击比单模态攻击的成功率显著提高,突显了MLLM在跨模态对抗中的脆弱性。

📝 摘要(中文)

随着视听多模态大语言模型(MLLM)越来越多地部署在安全关键型应用中,理解其脆弱性至关重要。为此,我们引入了多模态排版攻击,这是一项系统性研究,旨在检验跨多种模态的排版攻击如何对MLLM产生不利影响。虽然先前的工作主要关注单模态攻击,但我们揭示了MLLM的跨模态脆弱性。我们分析了音频、视觉和文本扰动之间的相互作用,并揭示了协调的多模态攻击比单模态攻击构成更严重的威胁(攻击成功率=83.43% vs 34.93%)。我们在多个前沿MLLM、任务以及常识推理和内容审核基准上的发现表明,多模态排版攻击是多模态推理中一个关键且未被充分探索的攻击策略。代码和数据将公开提供。

🔬 方法详解

问题定义:论文旨在研究多模态大语言模型(MLLM)在面对跨模态对抗攻击时的脆弱性。现有方法主要集中在单模态攻击上,忽略了不同模态之间的相互作用,以及协同攻击可能带来的更大威胁。因此,如何系统性地评估MLLM在多模态对抗环境下的鲁棒性是一个亟待解决的问题。

核心思路:论文的核心思路是通过引入“多模态排版攻击”,即在音频、视觉和文本等多个模态上同时进行细微的、难以察觉的扰动,来诱导MLLM产生错误的推理结果。这种攻击方式模拟了真实世界中可能存在的恶意输入,旨在揭示MLLM在跨模态信息融合方面的潜在缺陷。通过分析不同模态之间的相互作用,可以更好地理解MLLM的脆弱性,并为后续的防御策略提供指导。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择目标MLLM和评估任务(如常识推理、内容审核等);2) 设计针对不同模态的排版攻击策略(例如,在音频中加入微小的噪声、在图像中修改少量像素、在文本中替换近义词等);3) 将经过扰动的多模态数据输入到MLLM中,观察其输出结果;4) 分析攻击成功率,评估MLLM的鲁棒性;5) 研究不同模态之间的相互作用,揭示MLLM的脆弱性根源。

关键创新:论文最重要的技术创新点在于提出了“多模态排版攻击”这一概念,并系统性地研究了其对MLLM的影响。与以往的单模态攻击相比,多模态排版攻击能够更好地模拟真实世界中的恶意输入,并揭示MLLM在跨模态信息融合方面的潜在缺陷。此外,该研究还分析了不同模态之间的相互作用,为后续的防御策略提供了新的思路。

关键设计:论文的关键设计包括:1) 针对不同模态设计了不同的排版攻击策略,例如,在音频中加入人耳难以察觉的微小噪声,在图像中修改少量像素,在文本中替换近义词等;2) 采用了多种评估指标,包括攻击成功率、置信度变化等,来全面评估MLLM的鲁棒性;3) 通过控制变量法,分析了不同模态之间的相互作用,例如,单独攻击音频模态、单独攻击视觉模态、同时攻击音频和视觉模态等,从而揭示了MLLM的脆弱性根源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,协调的多模态排版攻击比单模态攻击的成功率显著提高(83.43% vs 34.93%),突显了多模态大语言模型在跨模态对抗环境下的脆弱性。该研究在多个前沿MLLM、任务以及常识推理和内容审核基准上进行了验证,证明了多模态排版攻击的有效性和普遍性。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型在安全关键领域的鲁棒性,例如自动驾驶、医疗诊断和金融风控等。通过了解模型在跨模态对抗攻击下的脆弱性,可以开发更有效的防御机制,提高系统的可靠性和安全性,减少潜在的风险。

📄 摘要(原文)

As audio-visual multi-modal large language models (MLLMs) are increasingly deployed in safety-critical applications, understanding their vulnerabilities is crucial. To this end, we introduce Multi-Modal Typography, a systematic study examining how typographic attacks across multiple modalities adversely influence MLLMs. While prior work focuses narrowly on unimodal attacks, we expose the cross-modal fragility of MLLMs. We analyze the interactions between audio, visual, and text perturbations and reveal that coordinated multi-modal attack creates a significantly more potent threat than single-modality attacks (attack success rate = $83.43\%$ vs $34.93\%$).Our findings across multiple frontier MLLMs, tasks, and common-sense reasoning and content moderation benchmarks establishes multi-modal typography as a critical and underexplored attack strategy in multi-modal reasoning. Code and data will be publicly available.