Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models

作者: Guangnian Wan, Qi Li, Gongfan Fang, Xinyin Ma, Xinchao Wang

分类: cs.CR, cs.LG

发布日期: 2026-02-28

💡 一句话要点

提出DiSP框架，缓解多模态扩散语言模型中的后门攻击

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态扩散模型 后门攻击 自净化 数据投毒 模型安全

📋 核心要点

多模态扩散语言模型容易受到后门攻击，攻击者可以通过特定触发器操纵模型行为，而现有防御策略不足。
DiSP框架通过在推理时选择性屏蔽视觉token来中和后门触发行为，并利用受损模型自净化中毒数据集。
实验表明DiSP能有效降低攻击成功率，从90%以上降至5%以下，同时保持模型在正常任务上的性能。

📝 摘要（中文）

多模态扩散语言模型(MDLMs)最近作为自回归模型的有力替代品出现。然而，它们对后门攻击的脆弱性在很大程度上仍未被探索。本文表明，完善的数据投毒流程可以成功地将后门植入MDLM中，使攻击者能够通过特定触发器操纵模型行为，同时保持模型在干净输入上的正常性能。然而，针对这些模型的有效防御策略尚未出现。为了弥合这一差距，我们为MDLM引入了一个名为DiSP(扩散自净化)的后门防御框架。DiSP的关键在于：在推理时选择性地屏蔽某些视觉token可以中和被后门模型由触发器引起的行为，并恢复正常功能。在此基础上，我们使用受损模型本身来净化中毒数据集，然后对净化后的数据进行微调，以将模型恢复到干净状态。鉴于这种特殊的设计，DiSP无需任何辅助模型或干净的参考数据即可删除后门。大量实验表明，我们的方法有效地缓解了后门效应，将攻击成功率(ASR)从90%以上降低到通常低于5%，同时保持了模型在良性任务上的性能。

🔬 方法详解

问题定义：论文旨在解决多模态扩散语言模型（MDLMs）中存在的后门攻击问题。现有的数据投毒方法可以成功地将后门植入到MDLM中，使得攻击者可以通过特定的触发器来操纵模型的行为。然而，目前缺乏有效的防御策略来应对这种攻击，使得MDLM在安全性方面存在隐患。

核心思路：论文的核心思路是利用模型自身的特性进行“自净化”。具体来说，通过观察发现，选择性地屏蔽某些视觉token可以在推理阶段中和后门触发的行为，从而恢复模型的正常功能。基于此，论文提出使用被攻击的模型本身来净化被污染的数据集，然后在此基础上对模型进行微调，从而将模型恢复到干净的状态。

技术框架：DiSP框架主要包含两个阶段：1) 触发器中和阶段：通过选择性地屏蔽视觉token来降低后门触发器的影响。具体如何选择需要屏蔽的token是未知的，论文可能采用了一些启发式方法或搜索算法。2) 模型净化阶段：使用经过触发器中和的模型对被污染的数据集进行预测，并根据预测结果对数据集进行过滤，去除可能包含后门的数据。然后，使用净化后的数据集对模型进行微调，以恢复模型的正常性能。

关键创新：DiSP的关键创新在于其“自净化”的思想。与传统的后门防御方法不同，DiSP不需要任何辅助模型或干净的参考数据，而是利用被攻击模型自身的特性来识别和去除后门。这种方法具有更高的效率和更强的适应性，因为它不需要额外的资源，并且可以针对特定的模型进行优化。

关键设计：论文的关键设计包括：1) 视觉Token选择策略：如何选择需要屏蔽的视觉token，以最大程度地中和后门触发器的影响。这可能涉及到一些启发式规则或优化算法。2) 数据净化策略：如何根据模型的预测结果来判断数据是否被污染，并进行过滤。这可能涉及到一些阈值设置或统计分析方法。3) 微调策略：如何使用净化后的数据集对模型进行微调，以恢复模型的正常性能，并避免引入新的后门。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DiSP框架能够有效地缓解多模态扩散语言模型中的后门攻击，将攻击成功率（ASR）从90%以上降低到通常低于5%，同时保持模型在良性任务上的性能。这意味着DiSP在防御后门攻击方面具有显著的优势，并且不会对模型的正常功能产生负面影响。

🎯 应用场景

该研究成果可应用于各种多模态内容生成和理解系统，例如图像描述、视频摘要、视觉问答等。通过防御后门攻击，可以提高这些系统的安全性与可靠性，防止恶意用户操纵模型输出，保障用户体验和数据安全。未来，该方法有望推广到其他类型的多模态模型和攻击场景。

📄 摘要（原文）

Multimodal Diffusion Language Models (MDLMs) have recently emerged as a competitive alternative to their autoregressive counterparts. Yet their vulnerability to backdoor attacks remains largely unexplored. In this work, we show that well-established data-poisoning pipelines can successfully implant backdoors into MDLMs, enabling attackers to manipulate model behavior via specific triggers while maintaining normal performance on clean inputs. However, defense strategies effective to these models are yet to emerge. To bridge this gap, we introduce a backdoor defense framework for MDLMs named DiSP (Diffusion Self-Purification). DiSP is driven by a key observation: selectively masking certain vision tokens at inference time can neutralize a backdoored model's trigger-induced behaviors and restore normal functionality. Building on this, we purify the poisoned dataset using the compromised model itself, then fine-tune the model on the purified data to recover it to a clean one. Given such a specific design, DiSP can remove backdoors without requiring any auxiliary models or clean reference data. Extensive experiments demonstrate that our approach effectively mitigates backdoor effects, reducing the attack success rate (ASR) from over 90% to typically under 5%, while maintaining model performance on benign tasks.

Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理