OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP
作者: Mohamad Hassan N C, Divyam Gupta, Mainak Singha, Sai Bhargav Rongali, Ankit Jha, Muhammad Haris Khan, Biplab Banerjee
分类: cs.CV
发布日期: 2025-03-20
备注: Accepted to CVPR 2025
💡 一句话要点
OSLoPrompt:桥接CLIP低监督挑战与开放集域泛化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低样本学习 开放集域泛化 Prompt学习 CLIP 领域泛化
📋 核心要点
- 现有基于CLIP的Prompt方法在低数据量和细粒度开放集检测方面存在不足。
- OSLoPrompt通过领域无关Prompt学习和伪开放样本合成来提升低样本开放集域泛化能力。
- 实验表明,OSLoPrompt在多个基准测试中显著优于现有方法,达到了新的state-of-the-art。
📝 摘要(中文)
本文提出了一种新的范式:低样本开放集域泛化(LSOSDG),它将低样本学习与开放集域泛化(ODG)统一起来。虽然使用CLIP等模型的基于Prompt的方法在域泛化(DG)方面取得了进展,但它们在低数据情况下(例如,1-shot)表现不佳,并且在检测与训练类别相关的细粒度语义的开放集样本时缺乏精度。为了应对这些挑战,我们提出了OSLoPrompt,这是一个用于CLIP的先进Prompt学习框架,具有两个核心创新。首先,为了管理跨源域的有限监督并改进DG,我们引入了一种领域无关的Prompt学习机制,该机制集成了适应性强的领域特定线索和视觉引导的语义属性,通过一种新颖的交叉注意力模块,此外,还通过可学习的领域和类通用视觉Prompt来支持,以增强跨模态适应性。其次,为了提高推理期间的异常值拒绝率,我们将不熟悉的样本分类为“未知”,并使用系统合成的伪开放样本训练专门的Prompt,这些样本保持与已知类的细粒度关系,这些样本通过具有现成基础模型的有针对性的查询策略生成。这种策略增强了特征学习,使我们的模型能够更有效地检测具有不同粒度的开放样本。在五个基准上的广泛评估表明,OSLoPrompt在LSOSDG中建立了新的最先进水平,显著优于现有方法。
🔬 方法详解
问题定义:论文旨在解决低样本开放集域泛化(LSOSDG)问题。现有方法,特别是基于CLIP的Prompt学习方法,在数据量极少的情况下(如1-shot学习)泛化能力不足,并且难以准确识别与训练类别具有细微语义关联的开放集样本。这些痛点限制了模型在实际应用中的可靠性和适用性。
核心思路:OSLoPrompt的核心思路是结合领域无关的Prompt学习和伪开放集样本合成,从而提升模型在低监督条件下的域泛化能力和开放集检测精度。通过学习通用的Prompt表示,模型能够更好地适应不同领域的数据分布,而伪开放集样本的引入则增强了模型区分已知类别和未知类别的能力。
技术框架:OSLoPrompt框架主要包含两个核心模块:领域无关Prompt学习模块和伪开放集样本合成模块。领域无关Prompt学习模块利用交叉注意力机制融合领域特定线索和视觉引导的语义属性,并结合可学习的领域和类通用视觉Prompt,增强跨模态适应性。伪开放集样本合成模块则通过有针对性的查询策略,利用现成的基础模型生成与已知类别具有细粒度关系的伪开放集样本。
关键创新:该论文的关键创新在于提出了一个统一的框架,能够同时解决低样本学习和开放集域泛化问题。具体来说,领域无关Prompt学习机制和伪开放集样本合成策略是两个重要的创新点。前者通过学习通用的Prompt表示来提升模型的泛化能力,后者则通过引入伪开放集样本来增强模型区分已知类别和未知类别的能力。
关键设计:在领域无关Prompt学习模块中,交叉注意力机制的设计至关重要,它能够有效地融合领域特定线索和视觉引导的语义属性。在伪开放集样本合成模块中,有针对性的查询策略的设计也十分关键,它能够确保生成的伪开放集样本与已知类别具有细粒度关系,从而更好地训练模型区分已知类别和未知类别的能力。损失函数的设计也需要考虑如何平衡已知类别和未知类别的学习。
🖼️ 关键图片
📊 实验亮点
OSLoPrompt在五个基准测试中均取得了显著的性能提升,在LSOSDG任务上达到了新的state-of-the-art。具体性能数据在论文中给出,表明该方法在低样本和开放集条件下具有强大的泛化能力和识别精度。相较于现有方法,OSLoPrompt在多个指标上均有显著提升。
🎯 应用场景
OSLoPrompt在实际应用中具有广泛的潜力,例如在医疗诊断、自动驾驶和安全监控等领域。在这些领域中,数据标注成本高昂,且往往存在未知的异常情况。OSLoPrompt能够利用少量标注数据进行学习,并有效识别未知的异常样本,从而提高系统的可靠性和安全性。未来,该方法有望进一步推广到其他低监督学习和开放集识别任务中。
📄 摘要(原文)
We introduce Low-Shot Open-Set Domain Generalization (LSOSDG), a novel paradigm unifying low-shot learning with open-set domain generalization (ODG). While prompt-based methods using models like CLIP have advanced DG, they falter in low-data regimes (e.g., 1-shot) and lack precision in detecting open-set samples with fine-grained semantics related to training classes. To address these challenges, we propose OSLOPROMPT, an advanced prompt-learning framework for CLIP with two core innovations. First, to manage limited supervision across source domains and improve DG, we introduce a domain-agnostic prompt-learning mechanism that integrates adaptable domain-specific cues and visually guided semantic attributes through a novel cross-attention module, besides being supported by learnable domain- and class-generic visual prompts to enhance cross-modal adaptability. Second, to improve outlier rejection during inference, we classify unfamiliar samples as "unknown" and train specialized prompts with systematically synthesized pseudo-open samples that maintain fine-grained relationships to known classes, generated through a targeted query strategy with off-the-shelf foundation models. This strategy enhances feature learning, enabling our model to detect open samples with varied granularity more effectively. Extensive evaluations across five benchmarks demonstrate that OSLOPROMPT establishes a new state-of-the-art in LSOSDG, significantly outperforming existing methods.