Towards Multimodal Domain Generalization with Few Labels

作者: Hongzhao Li, Hao Dong, Hualei Wan, Shupan Li, Mingliang Xu, Muhammad Haris Khan

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

提出一种半监督多模态域泛化框架，解决标注数据稀缺下的跨域泛化问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 半监督学习 多模态学习 域泛化 一致性正则化 跨模态对齐 伪标签 鲁棒性

📋 核心要点

现有方法在半监督多模态域泛化问题上存在局限性，无法同时利用无标签数据、处理域偏移和支持多模态输入。
论文提出一个统一框架，包含共识驱动的一致性正则化、差异感知正则化和跨模态原型对齐三个关键模块。
在新的SSMDG基准测试中，该方法在标准和缺失模态场景下均显著优于现有基线方法。

📝 摘要（中文）

多模态模型理想情况下应泛化到未见过的领域，同时保持数据效率以降低标注成本。为此，我们引入并研究了一个新问题，即半监督多模态域泛化（SSMDG），旨在从具有少量标记样本的多源数据中学习鲁棒的多模态模型。我们观察到，现有方法未能有效解决此问题：多模态域泛化方法无法利用未标记数据，半监督多模态学习方法忽略了域偏移，而半监督域泛化方法仅限于单模态输入。为了克服这些限制，我们提出了一个统一的框架，该框架具有三个关键组成部分：共识驱动的一致性正则化，通过置信的融合单模态共识获得可靠的伪标签；差异感知正则化，有效利用模糊的非共识样本；以及跨模态原型对齐，在通过跨模态转换促进缺失模态下的鲁棒性的同时，强制执行域和模态不变的表示。我们进一步建立了第一个SSMDG基准，在该基准上，我们的方法在标准和缺失模态场景中始终优于强大的基线。我们的基准和代码可在this https URL获得。

🔬 方法详解

问题定义：论文旨在解决半监督多模态域泛化（SSMDG）问题。现有方法要么无法有效利用未标注数据进行多模态域泛化，要么忽略了域偏移问题，要么仅限于单模态输入，无法充分利用多模态信息的互补性。这些局限性导致模型在面对新的、未见过的领域时泛化能力较差，尤其是在标注数据稀缺的情况下。

核心思路：论文的核心思路是利用未标注数据，通过一致性正则化和差异感知正则化来提升模型的鲁棒性，并利用跨模态原型对齐来学习域不变和模态不变的表示。通过融合不同模态的信息，生成更可靠的伪标签，并利用模态间的互补性来处理缺失模态的情况。

技术框架：该框架包含三个主要模块：1) 共识驱动的一致性正则化（Consensus-Driven Consistency Regularization）：利用不同模态预测结果的共识来生成高质量的伪标签，用于未标注数据的训练。2) 差异感知正则化（Disagreement-Aware Regularization）：充分利用模态间预测结果不一致的样本，通过正则化来提升模型对模糊样本的判别能力。3) 跨模态原型对齐（Cross-Modal Prototype Alignment）：通过跨模态翻译，将不同域和模态的数据映射到统一的特征空间，学习域不变和模态不变的表示，并提升模型在缺失模态下的鲁棒性。

关键创新：论文的关键创新在于提出了一个统一的框架，能够同时解决半监督学习、多模态学习和域泛化三个方面的挑战。通过共识驱动的一致性正则化和差异感知正则化，有效利用了未标注数据，提升了模型的鲁棒性。跨模态原型对齐则保证了模型在不同域和模态下的泛化能力，并使其能够处理缺失模态的情况。

关键设计：在共识驱动的一致性正则化中，使用置信度阈值来筛选高质量的伪标签。在差异感知正则化中，设计了特定的损失函数来惩罚模态间预测结果不一致的样本。在跨模态原型对齐中，使用了跨模态翻译网络来实现不同模态之间的特征转换，并设计了原型对齐损失函数来保证不同域和模态的数据在特征空间中的对齐。

🖼️ 关键图片

📊 实验亮点

论文在自建的SSMDG基准测试上进行了实验，结果表明，所提出的方法在标准和缺失模态场景下均显著优于现有的基线方法。具体性能提升幅度未知，但摘要强调了“consistently outperforms strong baselines”，表明该方法具有显著的优势。

🎯 应用场景

该研究成果可应用于多种需要跨领域泛化和数据标注成本高的多模态场景，例如：医疗诊断（结合影像和文本报告）、自动驾驶（融合视觉和激光雷达数据）、情感分析（结合文本和语音信息）等。该方法能够有效降低对大量标注数据的依赖，提高模型在实际应用中的泛化能力。

📄 摘要（原文）

Multimodal models ideally should generalize to unseen domains while remaining data-efficient to reduce annotation costs. To this end, we introduce and study a new problem, Semi-Supervised Multimodal Domain Generalization (SSMDG), which aims to learn robust multimodal models from multi-source data with few labeled samples. We observe that existing approaches fail to address this setting effectively: multimodal domain generalization methods cannot exploit unlabeled data, semi-supervised multimodal learning methods ignore domain shifts, and semi-supervised domain generalization methods are confined to single-modality inputs. To overcome these limitations, we propose a unified framework featuring three key components: Consensus-Driven Consistency Regularization, which obtains reliable pseudo-labels through confident fused-unimodal consensus; Disagreement-Aware Regularization, which effectively utilizes ambiguous non-consensus samples; and Cross-Modal Prototype Alignment, which enforces domain- and modality-invariant representations while promoting robustness under missing modalities via cross-modal translation. We further establish the first SSMDG benchmarks, on which our method consistently outperforms strong baselines in both standard and missing-modality scenarios. Our benchmarks and code are available atthis https URL.

Towards Multimodal Domain Generalization with Few Labels

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理