Open-set Cross Modal Generalization via Multimodal Unified Representation

📄 arXiv: 2507.14935v1 📥 PDF

作者: Hai Huang, Yan Xia, Shulei Wang, Hanting Wang, Minghui Fang, Shengpeng Ji, Sashuai Zhou, Tao Jin, Zhou Zhao

分类: cs.CV

发布日期: 2025-07-20

备注: Accepted by ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出MICU模型,解决开放集跨模态泛化问题,提升多模态统一表征的泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放集学习 跨模态泛化 多模态融合 对比学习 自监督学习 统一表征 信息瓶颈

📋 核心要点

  1. 现有跨模态统一表征方法在封闭集上评估,缺乏对开放集环境的考虑,限制了实际应用。
  2. MICU模型通过FCMI和CUJP两个模块,分别提升多模态对齐和特征多样性,增强模型对未知类别的泛化能力。
  3. 在CMG和OSCMG任务上的实验表明,MICU模型能够有效提升跨模态泛化性能,验证了其有效性。

📝 摘要(中文)

本文将跨模态泛化(CMG)扩展到开放集环境,提出了更具挑战性的开放集跨模态泛化(OSCMG)任务。该任务评估了开放集条件下的多模态统一表征,解决了先前封闭集跨模态评估的局限性。OSCMG不仅需要跨模态知识迁移,还需要对新模态中未见类的鲁棒泛化,这在实际应用中经常遇到。现有的多模态统一表征工作缺乏对开放集环境的考虑。为此,我们提出了MICU,它包含两个关键组件:精细-粗糙掩码多模态InfoNCE(FCMI)和跨模态统一拼图(CUJP)。FCMI通过在整体语义和时间层面上应用对比学习,并结合掩码来增强泛化能力,从而增强多模态对齐。CUJP通过将模态无关的特征选择与自监督学习相结合,增强了特征多样性和模型不确定性,从而增强了模型处理开放集任务中未知类别的能力。在CMG和新提出的OSCMG上的大量实验验证了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决开放集跨模态泛化(OSCMG)问题。现有跨模态泛化方法主要在封闭集环境下进行评估,即训练和测试数据包含相同的类别。然而,在实际应用中,模型经常需要处理包含未知类别的新模态数据,这给模型的泛化能力带来了挑战。现有方法无法有效处理这种开放集环境下的跨模态泛化问题。

核心思路:论文的核心思路是通过增强多模态统一表征的鲁棒性和多样性来提升模型在开放集环境下的泛化能力。具体来说,通过精细-粗糙掩码多模态InfoNCE(FCMI)来增强多模态对齐,并通过跨模态统一拼图(CUJP)来增强特征多样性和模型不确定性,从而使模型能够更好地处理未知类别。

技术框架:MICU模型主要包含两个模块:FCMI和CUJP。FCMI模块通过在整体语义和时间层面上应用对比学习,并结合掩码策略,来增强多模态特征的对齐。CUJP模块通过将模态无关的特征选择与自监督学习相结合,来增强特征的多样性和模型的不确定性。这两个模块共同作用,提升模型在开放集环境下的泛化能力。

关键创新:论文的关键创新在于提出了FCMI和CUJP两个模块,并将其结合起来解决开放集跨模态泛化问题。FCMI通过精细-粗糙的掩码策略,增强了多模态特征的对齐,而CUJP通过模态无关的特征选择和自监督学习,增强了特征的多样性和模型的不确定性。这种结合使得模型能够更好地处理未知类别,从而提升了在开放集环境下的泛化能力。与现有方法相比,MICU模型更注重提升模型对未知类别的鲁棒性和泛化能力。

关键设计:FCMI模块采用了InfoNCE损失函数进行对比学习,并使用了掩码策略来增强模型的泛化能力。CUJP模块采用了模态无关的特征选择机制,并使用了拼图游戏作为自监督学习的任务。具体的参数设置和网络结构细节在论文中有详细描述,例如掩码比例、拼图的数量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MICU模型在CMG和OSCMG任务上均取得了显著的性能提升。在OSCMG任务上,MICU模型相比于现有方法,在多个指标上均有明显提升,验证了其在开放集环境下的有效性。具体的性能数据和对比基线可以在论文中找到。

🎯 应用场景

该研究成果可应用于视频理解、图像检索、语音识别等领域,尤其是在需要处理包含未知类别的新模态数据的场景下,例如智能监控、跨媒体搜索等。该研究有助于提升多模态人工智能系统的鲁棒性和泛化能力,使其能够更好地适应复杂的现实环境。

📄 摘要(原文)

This paper extends Cross Modal Generalization (CMG) to open-set environments by proposing the more challenging Open-set Cross Modal Generalization (OSCMG) task. This task evaluates multimodal unified representations in open-set conditions, addressing the limitations of prior closed-set cross-modal evaluations. OSCMG requires not only cross-modal knowledge transfer but also robust generalization to unseen classes within new modalities, a scenario frequently encountered in real-world applications. Existing multimodal unified representation work lacks consideration for open-set environments. To tackle this, we propose MICU, comprising two key components: Fine-Coarse Masked multimodal InfoNCE (FCMI) and Cross modal Unified Jigsaw Puzzles (CUJP). FCMI enhances multimodal alignment by applying contrastive learning at both holistic semantic and temporal levels, incorporating masking to enhance generalization. CUJP enhances feature diversity and model uncertainty by integrating modality-agnostic feature selection with self-supervised learning, thereby strengthening the model's ability to handle unknown categories in open-set tasks. Extensive experiments on CMG and the newly proposed OSCMG validate the effectiveness of our approach. The code is available at https://github.com/haihuangcode/CMG.