Robust Multimodal Learning via Entropy-Gated Contrastive Fusion

作者: Leon Chlon, Maggie Chlon, MarcAntonio M. Awada

分类: stat.ML, cs.LG

发布日期: 2025-05-21

💡 一句话要点

提出自适应熵门控对比融合(AECF)，提升多模态系统在缺失输入下的鲁棒性和校准性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 鲁棒性 校准性 对比学习 熵门控

📋 核心要点

多模态系统在实际应用中常面临输入缺失问题，现有融合方法难以同时保证鲁棒性和校准性。
AECF通过自适应熵门控和对比学习，在模态缺失情况下提升模型性能和预测置信度。
实验表明，AECF在输入缺失时显著提升了mAP并降低了ECE，且计算开销极小。

📝 摘要（中文）

现实世界的多模态系统经常面临输入缺失的情况，例如工厂中机器人丢失音频，或临床记录中缺少实验室测试结果。标准的融合层要么保持鲁棒性，要么保持校准性，但不能同时兼顾两者。我们提出了一种自适应熵门控对比融合（AECF）方法，这是一个轻量级的单层结构，它（i）自适应地调整每个实例的熵系数，（ii）在所有模态子集上强制执行单调校准，以及（iii）直接从训练时的熵驱动课程掩码。在AV-MNIST和MS-COCO数据集上，AECF在50%的丢弃率下，将掩码输入的mAP提高了+18个百分点，同时将ECE降低了高达200%，并且只增加了1%的运行时间。所有骨干网络保持冻结，使得AECF成为一个易于使用的即插即用层，用于鲁棒、校准的多模态推理。

🔬 方法详解

问题定义：多模态学习在实际应用中面临输入缺失的挑战，例如传感器故障或数据不完整。现有的多模态融合方法，如简单的拼接或注意力机制，在输入缺失时性能显著下降。一些方法侧重于提高鲁棒性，但往往牺牲了模型的校准性，即预测概率与实际准确率不一致。因此，如何在多模态输入不完整的情况下，同时保证模型的鲁棒性和校准性是一个关键问题。

核心思路：论文的核心思路是利用熵来衡量每个模态的不确定性，并根据不确定性自适应地调整模态的贡献。通过对比学习，鼓励模型学习模态之间的共享信息，从而提高在模态缺失情况下的泛化能力。此外，通过强制单调校准，保证模型在不同模态子集下的预测置信度与准确率一致。

技术框架：AECF作为一个独立的融合层，可以插入到现有的多模态模型中。其主要流程如下：首先，对每个模态的特征进行编码，得到模态表示。然后，计算每个模态的熵，并使用熵来生成一个自适应的门控向量，用于调整模态的权重。接着，使用对比学习损失，鼓励模型学习模态之间的共享信息。最后，将加权后的模态表示进行融合，得到最终的融合特征。

关键创新：AECF的关键创新在于以下几点：(1) 自适应熵门控：根据每个实例的模态熵动态调整模态权重，避免了固定权重带来的局限性。(2) 对比学习：通过对比学习损失，增强模型对模态缺失的鲁棒性。(3) 单调校准：强制模型在不同模态子集下的预测置信度与准确率一致，提高了模型的可信度。与现有方法相比，AECF能够同时提升鲁棒性和校准性，且易于集成到现有模型中。

关键设计：AECF的关键设计包括：(1) 熵的计算方式：使用softmax输出的熵来衡量模态的不确定性。(2) 门控向量的生成方式：使用sigmoid函数将熵映射到[0, 1]区间，作为模态的权重。(3) 对比学习损失函数：使用InfoNCE损失函数，鼓励模型学习模态之间的共享信息。(4) 单调校准的实现方式：通过约束模型在不同模态子集下的预测概率，保证单调校准。

🖼️ 关键图片

📊 实验亮点

AECF在AV-MNIST和MS-COCO数据集上取得了显著的性能提升。在50%的输入缺失率下，AECF将MS-COCO数据集上的掩码输入mAP提高了18个百分点，同时将ECE降低了高达200%。此外，AECF的计算开销极小，仅增加了1%的运行时间。这些结果表明，AECF是一种高效且有效的多模态融合方法。

🎯 应用场景

AECF适用于各种需要多模态信息融合的场景，尤其是在输入数据可能存在缺失或噪声的情况下。例如，在自动驾驶中，可以融合视觉、激光雷达和雷达数据，即使某个传感器出现故障，系统也能保持稳定运行。在医疗诊断中，可以融合影像、基因组和临床数据，即使某些检测结果缺失，医生也能做出准确的判断。该方法具有广泛的应用前景，能够提高多模态系统的可靠性和安全性。

📄 摘要（原文）

Real-world multimodal systems routinely face missing-input scenarios, and in reality, robots lose audio in a factory or a clinical record omits lab tests at inference time. Standard fusion layers either preserve robustness or calibration but never both. We introduce Adaptive Entropy-Gated Contrastive Fusion (AECF), a single light-weight layer that (i) adapts its entropy coefficient per instance, (ii) enforces monotone calibration across all modality subsets, and (iii) drives a curriculum mask directly from training-time entropy. On AV-MNIST and MS-COCO, AECF improves masked-input mAP by +18 pp at a 50% drop rate while reducing ECE by up to 200%, yet adds 1% run-time. All back-bones remain frozen, making AECF an easy drop-in layer for robust, calibrated multimodal inference.

Robust Multimodal Learning via Entropy-Gated Contrastive Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理