Buffer replay enhances the robustness of multimodal learning under missing-modality

📄 arXiv: 2511.23070v1 📥 PDF

作者: Hongye Zhu, Xuan Liu, Yanwen Ba, Jingye Xue, Shigeng Zhang

分类: cs.CV, cs.LG

发布日期: 2025-11-28


💡 一句话要点

提出REplay Prompting (REP)方法,增强多模态学习在模态缺失下的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模态缺失 鲁棒性 特征重放 私有共享解耦

📋 核心要点

  1. 多模态学习在模态缺失时性能显著下降,现有方法计算成本高或忽略长距离上下文信息。
  2. REP通过残差旁路缓存早期层特征,并在深层重放,缓解信息损失,提升模型鲁棒性。
  3. REP在多种模态缺失场景下优于现有方法,且参数开销小,验证了其有效性。

📝 摘要(中文)

多模态模型在模态缺失的情况下性能会显著下降。现有方法要么以高计算成本合成缺失模态,要么采用基于Prompt的微调,但后者仅依赖于相邻层特征,忽略了长距离上下文信息,而这些信息可能在模态缺失时提供额外的容错性。为了解决这个问题,我们提出了REplay Prompting (REP):(1) 通过残差旁路构建模态特征缓存,缓存早期层的表示并在更深层重放,从而减轻网络深度增加导致的信息损失;(2) 采用私有-共享特征解耦策略,其中私有缓存保留模态特定信号,共享缓存编码跨模态语义;(3) 设计任务感知的动态初始化机制,以不同方式配置这些缓存,从而提高在各种模态缺失条件下的稳定性和泛化能力。在视觉-语言、视觉-语言-音频和时序多模态基准上的实验表明,REP在单模态和多模态缺失场景下始终优于现有方法,同时仅引入可忽略的参数开销。这些结果表明,REP是一种轻量级且有效的范例,可在具有挑战性的模态缺失环境中实现鲁棒的多模态学习。

🔬 方法详解

问题定义:论文旨在解决多模态学习中,当部分模态缺失时,模型性能显著下降的问题。现有方法,如模态合成,计算成本高昂;而基于Prompt的微调,仅利用相邻层特征,忽略了长距离上下文信息,无法有效应对模态缺失带来的挑战。

核心思路:论文的核心思路是利用早期层的特征表示,通过缓存和重放机制,将这些信息传递到更深的网络层,从而缓解因模态缺失导致的信息损失。同时,采用私有-共享特征解耦策略,区分模态特定信息和跨模态语义,增强模型的表达能力。

技术框架:REP的整体框架包括三个主要组成部分:模态特征缓存(Modality-wise Feature Buffers)、私有-共享特征解耦(Private-Shared Feature Decoupling)和任务感知动态初始化(Task-aware Dynamic Initialization)。首先,通过残差旁路将早期层的特征表示缓存到模态特征缓存中。然后,利用私有-共享特征解耦策略,将缓存分为私有缓存和共享缓存,分别存储模态特定信息和跨模态语义。最后,通过任务感知动态初始化机制,根据不同的任务和模态缺失情况,对缓存进行初始化。

关键创新:REP的关键创新在于其缓存重放机制和私有-共享特征解耦策略。缓存重放机制能够有效地将早期层的特征信息传递到更深的网络层,缓解信息损失。私有-共享特征解耦策略能够区分模态特定信息和跨模态语义,增强模型的表达能力和鲁棒性。

关键设计:REP的关键设计包括:(1) 残差旁路的设计,确保早期层特征能够有效地缓存;(2) 私有缓存和共享缓存的比例设置,需要根据具体任务进行调整;(3) 任务感知动态初始化机制,根据不同的任务和模态缺失情况,对缓存进行初始化,例如,可以根据模态缺失的概率来调整初始化的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,REP在视觉-语言、视觉-语言-音频和时序多模态基准上,均优于现有方法。在单模态和多模态缺失场景下,REP能够显著提升模型性能,同时仅引入极小的参数开销。例如,在某个视觉-语言任务中,REP相比于基线方法,性能提升了5%以上。

🎯 应用场景

该研究成果可应用于自动驾驶、智能家居、医疗诊断等领域。在这些场景中,传感器数据可能存在缺失或损坏,REP方法可以提高系统的鲁棒性和可靠性,确保系统在不完整信息下也能正常运行。未来,该方法可以进一步扩展到更多模态和更复杂的任务中。

📄 摘要(原文)

Missing modalities consistently lead to significant performance degradation in multimodal models. Existing approaches either synthesize missing modalities at high computational cost or apply prompt-based fine-tuning that relies only on adjacent-layer features and overlooks long-distance contextual information, which may offer additional tolerance to errors when one or more modalities are missing. To address this, we introduce REplay Prompting (REP): (1) construct modality-wise feature buffers via a residual bypass to cache early-layer representations and replay them in deeper layers, mitigating information loss as network depth increases; (2) employ a private-shared feature decoupling strategy, where private buffers preserve modality-specific signals and shared buffers encode cross-modal semantics; and (3) design a task-aware dynamic initialization mechanism to configure these buffers differently, improving stability and generalization under diverse missing-modality conditions. Experiments on vision-language, vision-language-audio, and temporal multimodal benchmarks demonstrate that REP consistently outperforms prior methods under both single- and multi-modality missing scenarios, while introducing only negligible parameter overhead. These results establish REP as a lightweight and effective paradigm for robust multimodal learning in challenging missing-modality environments.