ModalImmune: Immunity Driven Unlearning via Self Destructive Training

📄 arXiv: 2602.16197 📥 PDF

作者: Rong Fu, WeiZhi Tang, Ziming Wang, Jia Yee Tan, Zijian Zhang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon Fong

分类: cs.LG, cs.CL, cs.MM

发布日期: 2026-04-07


💡 一句话要点

提出ModalImmune框架,增强多模态系统在模态缺失下的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模态缺失 鲁棒性 自破坏训练 信息增益

📋 核心要点

  1. 多模态系统在部署时容易出现输入通道的部分或完全丢失,这损害了现实环境中的可靠性,是当前方法面临的核心挑战。
  2. ModalImmune通过在训练过程中主动破坏部分模态信息,迫使模型学习对模态缺失具有鲁棒性的联合表示,从而解决上述问题。
  3. 实验结果表明,ModalImmune在提高模型对模态移除和损坏的鲁棒性的同时,保持了收敛稳定性和重建能力。

📝 摘要(中文)

本文提出ModalImmune,一种训练框架,旨在通过在训练期间有意且可控地破坏选定的模态信息,从而增强多模态系统的模态免疫力。该框架结合了谱自适应崩溃正则化器、信息增益引导的控制器(用于有针对性的干预)、曲率感知梯度掩蔽(用于稳定破坏性更新)以及经过认证的Neumann截断超梯度程序(用于自动元参数调整)。在标准多模态基准上的实证评估表明,ModalImmune提高了对模态移除和损坏的弹性,同时保持了收敛稳定性和重建能力。

🔬 方法详解

问题定义:多模态模型在实际应用中,经常面临部分模态数据缺失或损坏的情况,导致模型性能显著下降。现有的多模态学习方法通常假设所有模态都是完整且可靠的,因此无法有效应对这种模态缺失问题。这限制了多模态模型在现实世界中的应用。

核心思路:ModalImmune的核心思想是主动让模型在训练阶段经历模态缺失的“免疫”过程。通过有控制地破坏部分模态信息,迫使模型学习到更鲁棒的联合表示,从而使其在部署时能够更好地应对模态缺失的情况。这种方法类似于生物免疫系统,通过接触少量病原体来增强对疾病的抵抗力。

技术框架:ModalImmune框架主要包含以下几个模块:1) 谱自适应崩溃正则化器:用于控制模态信息的破坏程度,避免过度破坏导致模型性能下降。2) 信息增益引导的控制器:用于选择性地破坏对模型影响较大的模态信息,从而实现有针对性的干预。3) 曲率感知梯度掩蔽:用于稳定破坏性更新,避免训练过程中的梯度爆炸或消失。4) Neumann截断超梯度程序:用于自动调整元参数,优化框架的整体性能。

关键创新:ModalImmune的关键创新在于其主动学习模态免疫的策略。与传统的被动式多模态学习方法不同,ModalImmune通过主动破坏模态信息,迫使模型学习到更鲁棒的特征表示。此外,信息增益引导的控制器和曲率感知梯度掩蔽等技术也为框架的稳定性和有效性提供了保障。

关键设计:谱自适应崩溃正则化器通过调整正则化系数来控制模态信息的破坏程度。信息增益引导的控制器使用信息增益来衡量每个模态对模型预测的影响,并优先破坏影响较大的模态。曲率感知梯度掩蔽通过计算损失函数的曲率来调整梯度更新的幅度,从而避免梯度爆炸或消失。Neumann截断超梯度程序使用Neumann级数来近似计算超梯度,并自动调整元参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ModalImmune在多个标准多模态基准数据集上取得了显著的性能提升。例如,在对模态移除的鲁棒性方面,ModalImmune相比于现有方法取得了平均5%以上的性能提升。此外,ModalImmune还表现出了良好的收敛稳定性和重建能力,证明了其在实际应用中的潜力。

🎯 应用场景

ModalImmune可应用于各种多模态学习任务,例如多模态情感分析、多模态行为识别、多模态医学诊断等。该方法能够提高模型在实际应用中的鲁棒性和可靠性,尤其是在数据质量不高或模态信息不完整的场景下。未来,该方法可以进一步扩展到更复杂的多模态场景,例如多模态对话系统和多模态机器人。

📄 摘要(原文)

Multimodal systems are vulnerable to partial or complete loss of input channels at deployment, which undermines reliability in real-world settings. This paper presents ModalImmune, a training framework that enforces modality immunity by intentionally and controllably collapsing selected modality information during training so the model learns joint representations that are robust to destructive modality influence. The framework combines a spectrum-adaptive collapse regularizer, an information-gain guided controller for targeted interventions, curvature-aware gradient masking to stabilize destructive updates, and a certified Neumann-truncated hyper-gradient procedure for automatic meta-parameter adaptation. Empirical evaluation on standard multimodal benchmarks demonstrates that ModalImmune improves resilience to modality removal and corruption while retaining convergence stability and reconstruction capacity.