Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study
作者: Hao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
分类: cs.CV, cs.AI, cs.LG, cs.MM
发布日期: 2026-05-07
备注: Code: https://github.com/lihongzhao99/MMDG_Benchmark
💡 一句话要点
MMDG-Bench:多模态领域泛化综合基准测试,揭示现有方法泛化能力不足
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态领域泛化 基准测试 领域泛化 鲁棒性 缺失模态 损坏鲁棒性 模型可信度 跨域学习
📋 核心要点
- 现有多模态领域泛化研究缺乏统一的评估标准,难以判断算法的真实性能提升。
- 论文构建了MMDG-Bench基准测试,涵盖多种任务、模态组合和评估指标,以全面评估MMDG算法。
- 实验结果表明,现有方法在公平比较下提升有限,且在实际应用场景中鲁棒性不足。
📝 摘要(中文)
为了评估多模态领域泛化(MMDG)算法的实际进展,本文提出了MMDG-Bench,这是一个统一且全面的基准测试平台。现有的MMDG研究在数据集、模态配置和实验设置上差异很大,缺乏标准化的评估协议,难以判断性能提升是否真正来自算法的进步。MMDG-Bench涵盖了动作识别、机械故障诊断和情感分析三个领域的六个数据集,六种模态组合,九种代表性方法和多种评估设置。除了标准准确率,还系统地评估了抗损坏鲁棒性、缺失模态泛化能力、错误分类检测和分布外检测。通过在95个独特的跨域任务上训练的7402个神经网络,MMDG-Bench揭示了现有方法在公平比较下提升有限,且在损坏和缺失模态情况下性能显著下降。
🔬 方法详解
问题定义:现有的多模态领域泛化(MMDG)研究缺乏统一的评估标准,导致研究结果难以比较,无法准确评估算法的真实性能。现有方法在数据集、模态组合和实验设置上存在很大差异,并且主要集中在动作识别任务上,忽略了实际应用中常见的输入损坏、模态缺失等问题。
核心思路:论文的核心思路是构建一个统一且全面的基准测试平台MMDG-Bench,通过标准化的评估协议,在多个数据集、任务和模态组合上对现有MMDG算法进行公平比较。该基准测试不仅评估标准准确率,还关注算法在实际应用中的鲁棒性和可靠性。
技术框架:MMDG-Bench包含以下几个主要组成部分: 1. 数据集:涵盖动作识别、机械故障诊断和情感分析三个领域的六个数据集。 2. 模态组合:支持六种不同的模态组合,例如视觉、听觉、文本等。 3. 评估指标:除了标准准确率,还包括抗损坏鲁棒性、缺失模态泛化能力、错误分类检测和分布外检测。 4. 基线方法:选择了九种具有代表性的MMDG方法作为基线。
关键创新:MMDG-Bench的关键创新在于其全面性和标准化。它首次将多个领域的MMDG任务整合到一个统一的基准测试平台中,并提供了标准化的评估协议和多种评估指标,从而能够更准确地评估MMDG算法的性能和鲁棒性。此外,MMDG-Bench还关注了实际应用中常见的输入损坏和模态缺失问题,从而能够更全面地评估MMDG算法的实用性。
关键设计:MMDG-Bench的关键设计包括: 1. 数据集选择:选择具有代表性的数据集,涵盖不同的领域和任务。 2. 模态组合设计:设计多种模态组合,以评估算法在不同模态情况下的性能。 3. 评估指标选择:选择能够反映算法鲁棒性和可靠性的评估指标。 4. 基线方法选择:选择具有代表性的MMDG方法作为基线,以便进行公平比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在公平比较下,最近提出的MMDG方法相对于ERM基线只有边际改进。没有一种方法在所有数据集或模态组合上始终优于其他方法。与性能上限相比,仍然存在很大的差距,表明MMDG问题远未解决。三模态融合并不总是优于最强的双模态配置。所有评估方法在损坏和缺失模态情况下都表现出显著的性能下降,并且某些方法进一步损害了模型的可信度。
🎯 应用场景
该研究成果可应用于各种需要多模态数据融合和领域泛化的场景,例如智能监控、机器人、医疗诊断等。通过使用MMDG-Bench评估和改进MMDG算法,可以提高模型在实际应用中的鲁棒性和可靠性,从而提升系统的整体性能和用户体验。未来的研究可以基于MMDG-Bench进一步探索更有效的MMDG算法,并将其应用于更广泛的领域。
📄 摘要(原文)
Despite the growing popularity of Multimodal Domain Generalization (MMDG) for enhancing model robustness, it remains unclear whether reported performance gains reflect genuine algorithmic progress or are artifacts of inconsistent evaluation protocols. Current research is fragmented, with studies varying significantly across datasets, modality configurations, and experimental settings. Furthermore, existing benchmarks focus predominantly on action recognition, often neglecting critical real-world challenges such as input corruptions, missing modalities, and model trustworthiness. This lack of standardization obscures a reliable assessment of the field's advancement. To address this issue, we introduce MMDG-Bench, the first unified and comprehensive benchmark for MMDG, which standardizes evaluation across six datasets spanning three diverse tasks: action recognition, mechanical fault diagnosis, and sentiment analysis. MMDG-Bench encompasses six modality combinations, nine representative methods, and multiple evaluation settings. Beyond standard accuracy, it systematically assesses corruption robustness, missing-modality generalization, misclassification detection, and out-of-distribution detection. With 7, 402 neural networks trained in total across 95 unique cross-domain tasks, MMDG-Bench yields five key findings: (1) under fair comparisons, recent specialized MMDG methods offer only marginal improvements over ERM baseline; (2) no single method consistently outperforms others across datasets or modality combinations; (3) a substantial gap to upper-bound performance persists, indicating that MMDG remains far from solved; (4) trimodal fusion does not consistently outperform the strongest bimodal configurations; and (5) all evaluated methods exhibit significant degradation under corruption and missing-modality scenarios, with some methods further compromising model trustworthiness.