Buffer replay enhances the robustness of multimodal learning under missing-modality

作者: Hongye Zhu, Xuan Liu, Yanwen Ba, Jingye Xue, Shigeng Zhang

分类: cs.CV, cs.LG

发布日期: 2025-11-28

💡 一句话要点

提出REplay Prompting (REP)方法，增强多模态学习在模态缺失下的鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模态缺失 鲁棒性 特征重放 私有共享解耦

📋 核心要点

多模态学习在模态缺失时性能显著下降，现有方法计算成本高或忽略长距离上下文信息。
REP通过残差旁路缓存早期层特征，并在深层重放，缓解信息损失，提升模型鲁棒性。
REP在多种模态缺失场景下优于现有方法，且参数开销小，验证了其有效性。

📝 摘要（中文）

多模态模型在模态缺失的情况下性能会显著下降。现有方法要么以高计算成本合成缺失模态，要么采用基于Prompt的微调，但后者仅依赖于相邻层特征，忽略了长距离上下文信息，而这些信息可能在模态缺失时提供额外的容错性。为了解决这个问题，我们提出了REplay Prompting (REP)：(1) 通过残差旁路构建模态特征缓存，缓存早期层的表示并在更深层重放，从而减轻网络深度增加导致的信息损失；(2) 采用私有-共享特征解耦策略，其中私有缓存保留模态特定信号，共享缓存编码跨模态语义；(3) 设计任务感知的动态初始化机制，以不同方式配置这些缓存，从而提高在各种模态缺失条件下的稳定性和泛化能力。在视觉-语言、视觉-语言-音频和时序多模态基准上的实验表明，REP在单模态和多模态缺失场景下始终优于现有方法，同时仅引入可忽略的参数开销。这些结果表明，REP是一种轻量级且有效的范例，可在具有挑战性的模态缺失环境中实现鲁棒的多模态学习。

🔬 方法详解

问题定义：论文旨在解决多模态学习中，当部分模态缺失时，模型性能显著下降的问题。现有方法，如模态合成，计算成本高昂；而基于Prompt的微调，仅利用相邻层特征，忽略了长距离上下文信息，无法有效应对模态缺失带来的挑战。

核心思路：论文的核心思路是利用早期层的特征表示，通过缓存和重放机制，将这些信息传递到更深的网络层，从而缓解因模态缺失导致的信息损失。同时，采用私有-共享特征解耦策略，区分模态特定信息和跨模态语义，增强模型的表达能力。

技术框架：REP的整体框架包括三个主要组成部分：模态特征缓存（Modality-wise Feature Buffers）、私有-共享特征解耦（Private-Shared Feature Decoupling）和任务感知动态初始化（Task-aware Dynamic Initialization）。首先，通过残差旁路将早期层的特征表示缓存到模态特征缓存中。然后，利用私有-共享特征解耦策略，将缓存分为私有缓存和共享缓存，分别存储模态特定信息和跨模态语义。最后，通过任务感知动态初始化机制，根据不同的任务和模态缺失情况，对缓存进行初始化。

关键创新：REP的关键创新在于其缓存重放机制和私有-共享特征解耦策略。缓存重放机制能够有效地将早期层的特征信息传递到更深的网络层，缓解信息损失。私有-共享特征解耦策略能够区分模态特定信息和跨模态语义，增强模型的表达能力和鲁棒性。

关键设计：REP的关键设计包括：(1) 残差旁路的设计，确保早期层特征能够有效地缓存；(2) 私有缓存和共享缓存的比例设置，需要根据具体任务进行调整；(3) 任务感知动态初始化机制，根据不同的任务和模态缺失情况，对缓存进行初始化，例如，可以根据模态缺失的概率来调整初始化的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，REP在视觉-语言、视觉-语言-音频和时序多模态基准上，均优于现有方法。在单模态和多模态缺失场景下，REP能够显著提升模型性能，同时仅引入极小的参数开销。例如，在某个视觉-语言任务中，REP相比于基线方法，性能提升了5%以上。

🎯 应用场景

该研究成果可应用于自动驾驶、智能家居、医疗诊断等领域。在这些场景中，传感器数据可能存在缺失或损坏，REP方法可以提高系统的鲁棒性和可靠性，确保系统在不完整信息下也能正常运行。未来，该方法可以进一步扩展到更多模态和更复杂的任务中。

📄 摘要（原文）

Missing modalities consistently lead to significant performance degradation in multimodal models. Existing approaches either synthesize missing modalities at high computational cost or apply prompt-based fine-tuning that relies only on adjacent-layer features and overlooks long-distance contextual information, which may offer additional tolerance to errors when one or more modalities are missing. To address this, we introduce REplay Prompting (REP): (1) construct modality-wise feature buffers via a residual bypass to cache early-layer representations and replay them in deeper layers, mitigating information loss as network depth increases; (2) employ a private-shared feature decoupling strategy, where private buffers preserve modality-specific signals and shared buffers encode cross-modal semantics; and (3) design a task-aware dynamic initialization mechanism to configure these buffers differently, improving stability and generalization under diverse missing-modality conditions. Experiments on vision-language, vision-language-audio, and temporal multimodal benchmarks demonstrate that REP consistently outperforms prior methods under both single- and multi-modality missing scenarios, while introducing only negligible parameter overhead. These results establish REP as a lightweight and effective paradigm for robust multimodal learning in challenging missing-modality environments.

Buffer replay enhances the robustness of multimodal learning under missing-modality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理