MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models

作者: Yuqi Li, Junhao Dong, Chuanguang Yang, Shiping Wen, Piotr Koniusz, Tingwen Huang, Yingli Tian, Yew-Soon Ong

分类: cs.CV

发布日期: 2025-11-21

备注: 10 pages

🔗 代码/项目: GITHUB

💡 一句话要点

提出MMT-ARD，通过多模态多教师对抗蒸馏提升视觉-语言模型的鲁棒性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 对抗鲁棒性 知识蒸馏 多教师学习 多模态融合

📋 核心要点

现有单教师对抗知识蒸馏方法在提升视觉-语言模型鲁棒性时，面临知识多样性不足、收敛慢、鲁棒性与准确性难以平衡等挑战。
MMT-ARD框架采用双教师知识融合架构，协同优化干净特征保留和鲁棒特征增强，并引入动态权重分配策略和自适应sigmoid加权函数。
实验表明，MMT-ARD在ViT-B-32模型上显著提升了鲁棒准确率和零样本准确率，并提高了训练效率，验证了其有效性和可扩展性。

📝 摘要（中文）

视觉-语言模型(VLM)越来越多地应用于安全关键型应用中，这使得它们的对抗鲁棒性成为一个至关重要的问题。虽然对抗知识蒸馏在将鲁棒性从教师模型转移到学生模型方面显示出希望，但传统的单教师方法存在知识多样性有限、收敛速度慢以及难以平衡鲁棒性和准确性等问题。为了解决这些挑战，我们提出了MMT-ARD：一个多模态多教师对抗鲁棒蒸馏框架。我们的关键创新是一个双教师知识融合架构，它协同优化干净特征的保留和鲁棒特征的增强。为了更好地处理具有挑战性的对抗样本，我们引入了一种基于教师置信度的动态权重分配策略，从而能够自适应地关注更难的样本。此外，为了减轻教师之间的偏差，我们设计了一个基于自适应sigmoid的加权函数，该函数平衡了跨模态的知识转移强度。在ImageNet和零样本基准上的大量实验表明，MMT-ARD在ViT-B-32模型上将鲁棒准确率提高了+4.32%，零样本准确率提高了+3.5%，同时训练效率比传统的单教师方法提高了2.3倍。这些结果突出了MMT-ARD在增强多模态大型模型的对抗鲁棒性方面的有效性和可扩展性。我们的代码可在https://github.com/itsnotacie/MMT-ARD上找到。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型(VLM)在对抗攻击下的脆弱性问题。现有的对抗训练和知识蒸馏方法，特别是单教师蒸馏，在提升模型鲁棒性的同时，往往会牺牲模型的准确性，并且训练效率较低，难以应用于大规模模型。此外，不同模态的教师模型可能存在偏差，导致知识转移不平衡。

核心思路：论文的核心思路是利用多教师对抗知识蒸馏，通过融合多个教师模型的知识，提升学生模型的鲁棒性和准确性。具体而言，采用双教师架构，一个教师负责保留干净样本的特征，另一个教师负责增强对抗样本的特征。通过动态权重分配和自适应sigmoid加权，平衡不同教师的贡献，并缓解模态偏差。

技术框架：MMT-ARD框架包含以下主要模块：1) 双教师模型：一个教师模型在干净数据上训练，另一个在对抗数据上训练。2) 学生模型：待训练的视觉-语言模型。3) 知识融合模块：将两个教师模型的知识融合，用于指导学生模型的训练。4) 动态权重分配模块：根据教师模型的置信度，动态调整其对学生模型训练的贡献。5) 自适应sigmoid加权模块：平衡不同模态教师模型的知识转移强度。训练流程包括：首先，分别训练两个教师模型；然后，利用MMT-ARD框架，将教师模型的知识蒸馏到学生模型中。

关键创新：论文的关键创新在于：1) 提出了双教师知识融合架构，协同优化干净特征保留和鲁棒特征增强。2) 引入了动态权重分配策略，根据教师置信度自适应地关注更难的样本。3) 设计了自适应sigmoid加权函数，平衡不同模态教师模型的知识转移强度，缓解模态偏差。

关键设计：1) 损失函数：包括干净样本损失、对抗样本损失和知识蒸馏损失。知识蒸馏损失采用KL散度或MSE损失，用于衡量学生模型与教师模型输出的差异。2) 动态权重分配：根据教师模型的预测置信度，使用softmax函数计算权重，置信度高的教师模型获得更高的权重。3) 自适应sigmoid加权：使用sigmoid函数对不同模态的知识转移强度进行加权，sigmoid函数的参数根据训练过程自适应调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MMT-ARD在ImageNet和零样本基准上显著提升了ViT-B-32模型的鲁棒性和准确性。具体而言，鲁棒准确率提高了+4.32%，零样本准确率提高了+3.5%。同时，训练效率比传统的单教师方法提高了2.3倍。这些结果验证了MMT-ARD在增强多模态大型模型的对抗鲁棒性方面的有效性和可扩展性。

🎯 应用场景

该研究成果可应用于各种安全关键型的视觉-语言任务，例如自动驾驶、医疗诊断、智能监控等。通过提高模型的对抗鲁棒性，可以有效防止恶意攻击，保障系统的稳定性和可靠性。此外，该方法还可以应用于其他多模态学习任务，具有广泛的应用前景。

📄 摘要（原文）

Vision-Language Models (VLMs) are increasingly deployed in safety-critical applications, making their adversarial robustness a crucial concern. While adversarial knowledge distillation has shown promise in transferring robustness from teacher to student models, traditional single-teacher approaches suffer from limited knowledge diversity, slow convergence, and difficulty in balancing robustness and accuracy. To address these challenges, we propose MMT-ARD: a Multimodal Multi-Teacher Adversarial Robust Distillation framework. Our key innovation is a dual-teacher knowledge fusion architecture that collaboratively optimizes clean feature preservation and robust feature enhancement. To better handle challenging adversarial examples, we introduce a dynamic weight allocation strategy based on teacher confidence, enabling adaptive focus on harder samples. Moreover, to mitigate bias among teachers, we design an adaptive sigmoid-based weighting function that balances the strength of knowledge transfer across modalities. Extensive experiments on ImageNet and zero-shot benchmarks demonstrate that MMT-ARD improves robust accuracy by +4.32% and zero-shot accuracy by +3.5% on the ViT-B-32 model, while achieving a 2.3x increase in training efficiency over traditional single-teacher methods. These results highlight the effectiveness and scalability of MMT-ARD in enhancing the adversarial robustness of multimodal large models. Our codes are available at https://github.com/itsnotacie/MMT-ARD.

MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理