BALM: A Model-Agnostic Framework for Balanced Multimodal Learning under Imbalanced Missing Rates
作者: Phuong-Anh Nguyen, Tien Anh Pham, Duc-Trong Le, Cam-Van Thi Nguyen
分类: cs.CV
发布日期: 2026-03-20
备注: Accepted by CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
BALM:一种模型无关的平衡多模态学习框架,解决不平衡缺失率问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 不平衡学习 缺失数据 特征校准 梯度重平衡 情感识别 模型无关
📋 核心要点
- 现有方法在多模态学习中,难以有效处理因各模态缺失率不平衡导致的表征学习偏差和梯度失衡问题。
- BALM框架通过特征校准和梯度重平衡,使各模态在训练中贡献均衡,从而提升模型在不平衡缺失率下的鲁棒性。
- 实验表明,BALM能显著提升多模态情感识别模型在多种缺失和不平衡场景下的性能,且易于集成到现有模型中。
📝 摘要(中文)
多模态学习常常面临不平衡问题,信息丰富的模态主导优化过程,而较弱或部分缺失的模态贡献较小。在具有不平衡缺失率(IMR)的实际场景中,这种不平衡会更加严重,因为每个模态以不同的概率缺失,从而扭曲了表征学习和梯度动态。本文从训练过程的角度重新审视这个问题,并提出了BALM,一个模型无关的即插即用框架,用于在IMR下实现平衡的多模态学习。该框架包含两个互补的模块:特征校准模块(FCM),它使用全局上下文重新校准单模态特征,以在不同的缺失模式之间建立共享的表征基础;梯度重平衡模块(GRM),它通过调节来自分布和空间角度的梯度幅度和方向来平衡跨模态的学习动态。BALM可以无缝集成到包括多模态情感识别(MER)模型在内的各种骨干网络中,而无需改变其架构。在多个MER基准上的实验结果证实,BALM在不同的缺失和不平衡设置下始终增强了鲁棒性并提高了性能。代码可在https://github.com/np4s/BALM_CVPR2026.git 获取。
🔬 方法详解
问题定义:论文旨在解决多模态学习中,由于各模态数据缺失率不平衡(IMR)而导致的模型训练偏差问题。现有方法在处理IMR时,往往会使信息丰富的模态主导学习过程,而信息较少或缺失严重的模态则贡献不足,最终导致模型性能下降。这种不平衡体现在表征学习和梯度更新两个方面。
核心思路:BALM的核心思路是通过特征校准和梯度重平衡两个模块,显式地平衡各模态在训练过程中的贡献。特征校准模块旨在建立一个跨模态的共享表征空间,使得即使在模态缺失的情况下,模型也能基于全局上下文推断出缺失模态的合理表征。梯度重平衡模块则通过调整梯度的大小和方向,避免某些模态梯度过大而主导训练,从而保证所有模态都能得到充分学习。
技术框架:BALM框架是一个即插即用的模块,可以集成到各种多模态模型中。其主要包含两个模块:1) 特征校准模块(FCM):利用全局上下文信息,对每个模态的特征进行校准,使其更接近共享表征空间。2) 梯度重平衡模块(GRM):从分布和空间两个角度调整梯度,平衡各模态的学习动态。这两个模块可以协同工作,共同解决IMR带来的问题。
关键创新:BALM的关键创新在于其从训练过程的角度出发,显式地解决了多模态学习中的不平衡问题。与以往侧重于模型结构设计的方法不同,BALM通过特征校准和梯度重平衡,直接干预训练过程,从而更有效地平衡各模态的贡献。此外,BALM的设计具有模型无关性,可以方便地应用于各种多模态模型。
关键设计:FCM模块使用全局上下文信息(例如,所有模态特征的加权平均)来校准每个模态的特征。GRM模块则从两个角度调整梯度:1) 分布角度:根据各模态的梯度分布,调整梯度的大小,避免梯度过大的模态主导训练。2) 空间角度:调整梯度的方向,使其更接近所有模态梯度的平均方向,从而保证各模态的学习方向一致。具体的损失函数和网络结构细节在论文中有详细描述,需要根据具体应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BALM在多个多模态情感识别基准数据集上取得了显著的性能提升。例如,在CMU-MOSEI数据集上,BALM将模型的F1 score提高了3-5个百分点,在MOSI数据集上也有类似的提升。此外,实验还验证了BALM在不同缺失率和不平衡设置下的鲁棒性,证明了其在实际应用中的价值。
🎯 应用场景
BALM框架具有广泛的应用前景,尤其是在多模态数据存在缺失和不平衡的场景下。例如,在多模态情感识别、多模态行为分析、多模态医学诊断等领域,BALM可以有效提升模型的鲁棒性和准确性。该研究有助于推动多模态学习在实际应用中的发展,并为解决数据缺失和不平衡问题提供新的思路。
📄 摘要(原文)
Learning from multiple modalities often suffers from imbalance, where information-rich modalities dominate optimization while weaker or partially missing modalities contribute less. This imbalance becomes severe in realistic settings with imbalanced missing rates (IMR), where each modality is absent with different probabilities, distorting representation learning and gradient dynamics. We revisit this issue from a training-process perspective and propose BALM, a model-agnostic plug-in framework to achieve balanced multimodal learning under IMR. The framework comprises two complementary modules: the Feature Calibration Module (FCM), which recalibrates unimodal features using global context to establish a shared representation basis across heterogeneous missing patterns; the Gradient Rebalancing Module (GRM), which balances learning dynamics across modalities by modulating gradient magnitudes and directions from both distributional and spatial perspectives. BALM can be seamlessly integrated into diverse backbones, including multimodal emotion recognition (MER) models, without altering their architectures. Experimental results across multiple MER benchmarks confirm that BALM consistently enhances robustness and improves performance under diverse missing and imbalance settings. Code available at: https://github.com/np4s/BALM_CVPR2026.git