A Patch-based Cross-view Regularized Framework for Backdoor Defense in Multimodal Large Language Models

📄 arXiv: 2604.04488 📥 PDF

作者: Tianmeng Fang, Yong Wang, Zetai Kong, Zengzhen Su, Jun Wang, Chengjin Yu, Wei Wang

分类: cs.CV, cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出基于Patch增强和跨视角正则化的框架,防御多模态大语言模型中的后门攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 后门防御 对抗攻击 跨视角正则化 Patch增强

📋 核心要点

  1. 多模态大语言模型易受后门攻击,现有防御方法难以兼顾攻击抑制和良性性能。
  2. 提出基于patch增强和跨视角正则化的防御框架,约束模型对触发模式的异常行为。
  3. 实验表明,该方法有效降低攻击成功率,同时保持了高水平的正常文本生成能力。

📝 摘要(中文)

多模态大语言模型已成为统一处理视觉和语言任务的重要基础设施。然而,这类模型在监督微调过程中极易受到后门植入的影响,一旦特定触发模式被激活,就会稳定地输出攻击者预定义的有害响应。后门防御的核心挑战在于在低中毒率下抑制攻击成功率,同时保持模型的正常生成能力。这两个目标本质上是相互冲突的。强抑制通常会降低良性性能,而弱正则化则无法缓解后门行为。为此,我们提出了一种基于patch增强和跨视角正则化的统一防御框架,该框架从特征表示和输出分布层面同时约束模型对触发模式的异常行为。具体而言,patch级数据增强与跨视角输出差异正则化相结合,利用后门响应对非语义扰动异常不变的特性,主动拉开原始视角和扰动视角的输出分布,从而显著抑制后门触发的成功率。同时,我们通过施加输出熵约束来避免防御过程中对模型的过度抑制,确保正常命令生成的质量。在三个模型、两个任务和六个攻击上的实验结果表明,我们提出的防御方法有效地降低了攻击成功率,同时保持了高水平的正常文本生成能力。我们的工作使得大规模多模态模型能够在真实的低频中毒和隐蔽触发场景中安全、可控地部署。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型中后门攻击的防御问题。现有防御方法的痛点在于,为了抑制后门攻击,往往会过度干预模型的正常行为,导致良性任务的性能下降;反之,如果正则化强度不够,则无法有效防御后门攻击。这种攻击抑制和良性性能之间的矛盾是现有方法面临的主要挑战。

核心思路:论文的核心思路是利用后门攻击的特性,即后门触发的响应对非语义扰动具有异常的不变性。通过对输入图像进行patch级别的扰动,正常样本的输出会发生显著变化,而后门触发的样本的输出则变化较小。基于此,论文通过跨视角正则化,鼓励模型对原始输入和扰动输入的输出分布产生差异,从而区分后门触发的样本和正常样本。

技术框架:该防御框架主要包含两个核心模块:Patch增强模块和跨视角正则化模块。Patch增强模块通过对输入图像进行随机的patch级别的扰动,生成扰动后的视角。跨视角正则化模块则利用原始视角和扰动视角的输出差异,设计损失函数来约束模型的行为。此外,为了避免过度抑制模型,还引入了输出熵约束,以保证模型在正常情况下的生成能力。

关键创新:该论文的关键创新在于提出了基于patch增强和跨视角正则化的防御框架,该框架能够同时从特征表示和输出分布层面约束模型对后门触发的异常行为。与现有方法相比,该方法能够更有效地抑制后门攻击,同时保持模型的良性性能。

关键设计:Patch增强模块采用随机的patch遮挡策略,遮挡比例和位置随机。跨视角正则化模块采用KL散度来衡量原始视角和扰动视角的输出分布差异,并将其作为正则化项添加到损失函数中。输出熵约束则通过最大化输出分布的熵来鼓励模型生成多样化的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该防御方法在三个模型、两个任务和六个攻击场景下均表现出良好的防御效果,能够有效降低攻击成功率,同时保持高水平的正常文本生成能力。具体性能数据未知,但摘要强调了在降低攻击成功率的同时,维持了模型原有的生成能力。

🎯 应用场景

该研究成果可应用于保护多模态大语言模型免受恶意攻击,确保其在图像描述、视觉问答等实际应用中的安全性和可靠性。该方法有助于推动多模态大模型的安全部署,降低潜在风险,并为构建可信赖的人工智能系统奠定基础。

📄 摘要(原文)

Multimodal large language models have become an important infrastructure for unified processing of visual and linguistic tasks. However, such models are highly susceptible to backdoor implantation during supervised fine-tuning and will steadily output the attacker's predefined harmful responses once a specific trigger pattern is activated. The core challenge of backdoor defense lies in suppressing attack success under low poisoning ratios while preserving the model's normal generation ability. These two objectives are inherently conflicting. Strong suppression often degrades benign performance, whereas weak regularization fails to mitigate backdoor behaviors. To this end, we propose a unified defense framework based on patch augmentation and cross-view regularity, which simultaneously constrains the model's anomalous behaviors in response to triggered patterns from both the feature representation and output distribution levels. Specifically, patch-level data augmentation is combined with cross-view output difference regularization to exploit the fact that backdoor responses are abnormally invariant to non-semantic perturbations and to proactively pull apart the output distributions of the original and perturbed views, thereby significantly suppressing the success rate of backdoor triggering. At the same time, we avoid over-suppression of the model during defense by imposing output entropy constraints, ensuring the quality of normal command generation. Experimental results across three models, two tasks, and six attacks show that our proposed defense method effectively reduces the attack success rate while maintaining a high level of normal text generation capability. Our work enables the secure, controlled deployment of large-scale multimodal models in realistic low-frequency poisoning and covert triggering scenarios.