COSMo: CLIP Talks on Open-Set Multi-Target Domain Adaptation

📄 arXiv: 2409.00397v2 📥 PDF

作者: Munish Monga, Sachin Kumar Giroh, Ankit Jha, Mainak Singha, Biplab Banerjee, Jocelyn Chanussot

分类: cs.CV

发布日期: 2024-08-31 (更新: 2024-12-16)

备注: Accepted in BMVC 2024

🔗 代码/项目: GITHUB


💡 一句话要点

COSMo:提出一种基于CLIP的开放集多目标域自适应方法,解决视觉和语义特征的域偏移问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放集学习 多目标域自适应 CLIP 提示学习 视觉-语言模型 领域自适应 未知类别

📋 核心要点

  1. 现有MTDA方法主要关注视觉特征的域偏移,忽略语义特征,且难以处理未知类别,导致开放集MTDA问题。
  2. COSMo通过源域引导的提示学习,在提示空间中学习域无关的提示,以解决MTDA问题。
  3. COSMo在三个数据集上相比其他DA方法平均提升5.1%,有效应对了开放集和多目标域自适应的挑战。

📝 摘要(中文)

多目标域自适应(MTDA)旨在从单个源域学习域不变信息,并将其应用于多个未标记的目标域。然而,现有的MTDA方法主要关注解决视觉特征中的域偏移,常常忽略语义特征,并且难以处理未知类别,从而导致所谓的开放集(OS)MTDA问题。尽管像CLIP这样的大规模视觉-语言基础模型显示出潜力,但它们在MTDA中的应用仍未被充分探索。本文提出了一种新方法COSMo,它通过源域引导的提示学习来学习域无关的提示,从而在提示空间中解决MTDA问题。通过利用特定领域的偏置网络和用于已知和未知类别的单独提示,COSMo有效地适应跨域和类别的偏移。据我们所知,COSMo是第一个解决开放集多目标DA(OSMTDA)的方法,它提供了对现实世界场景的更真实的表示,并解决了开放集和多目标DA的挑战。在三个具有挑战性的数据集Mini-DomainNet、Office-31和Office-Home上,与其他适用于OSMTDA设置的相关DA方法相比,COSMo的平均改进为5.1%。代码可在https://github.com/munish30monga/COSMo 获取。

🔬 方法详解

问题定义:论文旨在解决开放集多目标域自适应(OSMTDA)问题。现有MTDA方法的痛点在于,它们主要关注视觉特征的域偏移,忽略了语义特征,并且无法有效处理未知类别,导致在实际应用中性能下降。

核心思路:论文的核心思路是利用CLIP等视觉-语言模型强大的语义理解能力,通过学习域无关的提示(prompt)来弥合源域和多个目标域之间的差距。通过在prompt空间进行自适应,可以更好地利用CLIP的泛化能力,同时解决开放集问题。

技术框架:COSMo的整体框架包含以下几个主要模块:1) CLIP模型:作为基础的视觉-语言模型,提供视觉和文本特征提取能力。2) 领域特定偏置网络:用于学习每个目标域的特定偏置,从而更好地适应不同域的特征分布。3) 提示学习模块:通过源域引导的提示学习,学习域无关的提示,用于已知和未知类别。4) 分类器:基于学习到的提示和CLIP的文本编码器,对图像进行分类。

关键创新:COSMo的关键创新在于:1) 首次提出了开放集多目标域自适应(OSMTDA)问题。2) 利用CLIP的prompt学习能力,在prompt空间进行域自适应,而不是直接在视觉特征空间。3) 引入领域特定偏置网络,更好地适应不同目标域的特征分布。4) 区分已知和未知类别,分别学习不同的提示,从而更好地处理开放集问题。

关键设计:在提示学习模块中,使用源域数据引导提示的学习,确保学习到的提示具有良好的泛化能力。领域特定偏置网络采用简单的MLP结构,参数量较小,易于训练。损失函数包括分类损失和领域对抗损失,用于优化提示和偏置网络。对于未知类别的处理,采用基于置信度的阈值方法,将置信度低于阈值的样本判定为未知类别。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

COSMo在Mini-DomainNet、Office-31和Office-Home三个数据集上进行了实验,结果表明COSMo相比其他适用于OSMTDA设置的相关DA方法,平均改进为5.1%。这表明COSMo能够有效地解决开放集多目标域自适应问题,并且具有良好的泛化能力。

🎯 应用场景

COSMo具有广泛的应用前景,例如在自动驾驶、智能监控、医疗诊断等领域。在这些领域中,数据往往来自多个不同的来源,并且存在未知的类别。COSMo可以有效地利用这些数据,提高模型的泛化能力和鲁棒性,从而提升系统的性能和可靠性。未来,COSMo可以进一步扩展到其他模态的数据,例如文本、语音等,从而构建更加强大的多模态域自适应系统。

📄 摘要(原文)

Multi-Target Domain Adaptation (MTDA) entails learning domain-invariant information from a single source domain and applying it to multiple unlabeled target domains. Yet, existing MTDA methods predominantly focus on addressing domain shifts within visual features, often overlooking semantic features and struggling to handle unknown classes, resulting in what is known as Open-Set (OS) MTDA. While large-scale vision-language foundation models like CLIP show promise, their potential for MTDA remains largely unexplored. This paper introduces COSMo, a novel method that learns domain-agnostic prompts through source domain-guided prompt learning to tackle the MTDA problem in the prompt space. By leveraging a domain-specific bias network and separate prompts for known and unknown classes, COSMo effectively adapts across domain and class shifts. To the best of our knowledge, COSMo is the first method to address Open-Set Multi-Target DA (OSMTDA), offering a more realistic representation of real-world scenarios and addressing the challenges of both open-set and multi-target DA. COSMo demonstrates an average improvement of $5.1\%$ across three challenging datasets: Mini-DomainNet, Office-31, and Office-Home, compared to other related DA methods adapted to operate within the OSMTDA setting. Code is available at: https://github.com/munish30monga/COSMo