Robust Multimodal Learning via Entropy-Gated Contrastive Fusion

📄 arXiv: 2505.15417v1 📥 PDF

作者: Leon Chlon, Maggie Chlon, MarcAntonio M. Awada

分类: stat.ML, cs.LG

发布日期: 2025-05-21


💡 一句话要点

提出自适应熵门控对比融合(AECF),提升多模态系统在缺失输入下的鲁棒性和校准性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 鲁棒性 校准性 对比学习 熵门控

📋 核心要点

  1. 多模态系统在实际应用中常面临输入缺失问题,现有融合方法难以同时保证鲁棒性和校准性。
  2. AECF通过自适应熵门控和对比学习,在模态缺失情况下提升模型性能和预测置信度。
  3. 实验表明,AECF在输入缺失时显著提升了mAP并降低了ECE,且计算开销极小。

📝 摘要(中文)

现实世界的多模态系统经常面临输入缺失的情况,例如工厂中机器人丢失音频,或临床记录中缺少实验室测试结果。标准的融合层要么保持鲁棒性,要么保持校准性,但不能同时兼顾两者。我们提出了一种自适应熵门控对比融合(AECF)方法,这是一个轻量级的单层结构,它(i)自适应地调整每个实例的熵系数,(ii)在所有模态子集上强制执行单调校准,以及(iii)直接从训练时的熵驱动课程掩码。在AV-MNIST和MS-COCO数据集上,AECF在50%的丢弃率下,将掩码输入的mAP提高了+18个百分点,同时将ECE降低了高达200%,并且只增加了1%的运行时间。所有骨干网络保持冻结,使得AECF成为一个易于使用的即插即用层,用于鲁棒、校准的多模态推理。

🔬 方法详解

问题定义:多模态学习在实际应用中面临输入缺失的挑战,例如传感器故障或数据不完整。现有的多模态融合方法,如简单的拼接或注意力机制,在输入缺失时性能显著下降。一些方法侧重于提高鲁棒性,但往往牺牲了模型的校准性,即预测概率与实际准确率不一致。因此,如何在多模态输入不完整的情况下,同时保证模型的鲁棒性和校准性是一个关键问题。

核心思路:论文的核心思路是利用熵来衡量每个模态的不确定性,并根据不确定性自适应地调整模态的贡献。通过对比学习,鼓励模型学习模态之间的共享信息,从而提高在模态缺失情况下的泛化能力。此外,通过强制单调校准,保证模型在不同模态子集下的预测置信度与准确率一致。

技术框架:AECF作为一个独立的融合层,可以插入到现有的多模态模型中。其主要流程如下:首先,对每个模态的特征进行编码,得到模态表示。然后,计算每个模态的熵,并使用熵来生成一个自适应的门控向量,用于调整模态的权重。接着,使用对比学习损失,鼓励模型学习模态之间的共享信息。最后,将加权后的模态表示进行融合,得到最终的融合特征。

关键创新:AECF的关键创新在于以下几点:(1) 自适应熵门控:根据每个实例的模态熵动态调整模态权重,避免了固定权重带来的局限性。(2) 对比学习:通过对比学习损失,增强模型对模态缺失的鲁棒性。(3) 单调校准:强制模型在不同模态子集下的预测置信度与准确率一致,提高了模型的可信度。与现有方法相比,AECF能够同时提升鲁棒性和校准性,且易于集成到现有模型中。

关键设计:AECF的关键设计包括:(1) 熵的计算方式:使用softmax输出的熵来衡量模态的不确定性。(2) 门控向量的生成方式:使用sigmoid函数将熵映射到[0, 1]区间,作为模态的权重。(3) 对比学习损失函数:使用InfoNCE损失函数,鼓励模型学习模态之间的共享信息。(4) 单调校准的实现方式:通过约束模型在不同模态子集下的预测概率,保证单调校准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AECF在AV-MNIST和MS-COCO数据集上取得了显著的性能提升。在50%的输入缺失率下,AECF将MS-COCO数据集上的掩码输入mAP提高了18个百分点,同时将ECE降低了高达200%。此外,AECF的计算开销极小,仅增加了1%的运行时间。这些结果表明,AECF是一种高效且有效的多模态融合方法。

🎯 应用场景

AECF适用于各种需要多模态信息融合的场景,尤其是在输入数据可能存在缺失或噪声的情况下。例如,在自动驾驶中,可以融合视觉、激光雷达和雷达数据,即使某个传感器出现故障,系统也能保持稳定运行。在医疗诊断中,可以融合影像、基因组和临床数据,即使某些检测结果缺失,医生也能做出准确的判断。该方法具有广泛的应用前景,能够提高多模态系统的可靠性和安全性。

📄 摘要(原文)

Real-world multimodal systems routinely face missing-input scenarios, and in reality, robots lose audio in a factory or a clinical record omits lab tests at inference time. Standard fusion layers either preserve robustness or calibration but never both. We introduce Adaptive Entropy-Gated Contrastive Fusion (AECF), a single light-weight layer that (i) adapts its entropy coefficient per instance, (ii) enforces monotone calibration across all modality subsets, and (iii) drives a curriculum mask directly from training-time entropy. On AV-MNIST and MS-COCO, AECF improves masked-input mAP by +18 pp at a 50% drop rate while reducing ECE by up to 200%, yet adds 1% run-time. All back-bones remain frozen, making AECF an easy drop-in layer for robust, calibrated multimodal inference.