When Domain Generalization meets Generalized Category Discovery: An Adaptive Task-Arithmetic Driven Approach
作者: Vaibhav Rathore, Shubhranil B, Saikat Dutta, Sarthak Mehrotra, Zsolt Kira, Biplab Banerjee
分类: cs.CV
发布日期: 2025-03-19 (更新: 2025-03-21)
备注: Accepted at CVPR 2025 (Main Conference)
💡 一句话要点
提出DG2CD-Net,通过自适应任务算术驱动的领域泛化方法解决广义类别发现问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 领域泛化 广义类别发现 情景训练 任务算术 跨域学习
📋 核心要点
- 现有广义类别发现方法在领域偏移下表现不佳,且训练时常需访问目标域数据,限制了应用场景。
- DG2CD-Net通过情景训练策略,利用源域和合成域数据,学习领域无关的判别嵌入空间,提升跨域泛化能力。
- 实验结果表明,DG2CD-Net在三个数据集上超越了现有方法,验证了其在领域泛化广义类别发现任务上的有效性。
📝 摘要(中文)
本文提出了一种新的领域泛化广义类别发现(DG-GCD)范式,旨在解决现有方法在分布偏移下性能下降,且训练时需要访问目标域数据的问题。为此,论文提出了DG2CD-Net,通过构建领域独立的判别嵌入空间来实现GCD。核心创新在于一种情景训练策略,该策略通过在源域和由基础模型生成的合成域上派生的任务上调整基础模型,从而增强跨域泛化能力。每个情景都侧重于跨域GCD任务,通过在情景中多样化任务设置,并将开放集领域自适应与新的边缘损失和表征学习相结合,逐步优化特征空间。为了捕捉微调对基础模型的影响,论文扩展了任务算术,根据微调模型在验证分布上的GCD性能,自适应地加权与微调模型相关的局部任务向量。这种情景更新机制提高了基础模型对未见目标的适应性。在三个数据集上的实验表明,DG2CD-Net优于为DG-GCD定制的现有GCD方法。
🔬 方法详解
问题定义:论文旨在解决领域泛化广义类别发现(DG-GCD)问题。现有GCD方法在训练时通常需要访问目标域数据,这在实际应用中可能不可行。此外,当源域和目标域之间存在分布偏移时,现有方法的性能会显著下降。因此,如何在仅使用源域数据的情况下,使模型能够很好地泛化到具有不同分布的未见目标域,是本文要解决的关键问题。
核心思路:论文的核心思路是构建一个领域无关的判别嵌入空间,使得来自不同领域但属于同一类别的样本在嵌入空间中尽可能接近,而属于不同类别的样本则尽可能远离。为了实现这一目标,论文采用了一种情景训练策略,通过在源域和合成域上模拟不同的GCD任务,来训练模型的泛化能力。此外,论文还引入了自适应任务算术,根据微调模型在验证集上的表现,动态调整任务向量的权重,从而更好地捕捉微调对模型的影响。
技术框架:DG2CD-Net的整体框架包括以下几个主要模块:1) 特征提取器:用于提取输入图像的特征表示。2) 任务生成器:用于生成不同的GCD任务,包括从源域采样样本和从合成域生成样本。3) 任务执行器:用于在每个任务上微调特征提取器。4) 任务算术模块:用于根据微调模型的表现,自适应地调整任务向量的权重。5) 分类器:用于将特征表示映射到类别标签。整个训练过程采用情景训练的方式,每个情景都包含多个GCD任务,模型在每个任务上进行微调,并通过任务算术模块更新模型参数。
关键创新:论文的关键创新在于以下几个方面:1) 提出了DG-GCD这一新的研究范式,解决了现有GCD方法在领域泛化方面的不足。2) 引入了情景训练策略,通过模拟不同的GCD任务,增强了模型的泛化能力。3) 提出了自适应任务算术,根据微调模型的表现,动态调整任务向量的权重,更好地捕捉了微调对模型的影响。4) 利用基础模型生成合成域数据,丰富了训练数据的多样性。
关键设计:在关键设计方面,论文采用了以下策略:1) 使用Margin Loss来优化特征空间,使得属于同一类别的样本在嵌入空间中尽可能接近,而属于不同类别的样本则尽可能远离。2) 使用Representation Learning来学习更具判别性的特征表示。3) 在任务算术模块中,使用验证集上的GCD性能来衡量微调模型的重要性,并据此调整任务向量的权重。4) 通过调整基础模型的参数,控制合成域数据的质量和多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DG2CD-Net在三个数据集上均取得了优于现有方法的性能。例如,在Office-Home数据集上,DG2CD-Net相比于最佳基线方法,在Avg H score上取得了显著的提升。这些结果验证了DG2CD-Net在领域泛化广义类别发现任务上的有效性。
🎯 应用场景
该研究成果可应用于各种需要跨领域类别发现的场景,例如:在医疗影像分析中,利用已知疾病的影像数据,发现新的疾病类别;在安全监控领域,利用已知目标的数据,发现新的异常行为;在电商领域,利用已知商品类别的数据,发现新的商品类别。该研究具有重要的实际应用价值,有助于提高人工智能系统的鲁棒性和泛化能力。
📄 摘要(原文)
Generalized Class Discovery (GCD) clusters base and novel classes in a target domain using supervision from a source domain with only base classes. Current methods often falter with distribution shifts and typically require access to target data during training, which can sometimes be impractical. To address this issue, we introduce the novel paradigm of Domain Generalization in GCD (DG-GCD), where only source data is available for training, while the target domain, with a distinct data distribution, remains unseen until inference. To this end, our solution, DG2CD-Net, aims to construct a domain-independent, discriminative embedding space for GCD. The core innovation is an episodic training strategy that enhances cross-domain generalization by adapting a base model on tasks derived from source and synthetic domains generated by a foundation model. Each episode focuses on a cross-domain GCD task, diversifying task setups over episodes and combining open-set domain adaptation with a novel margin loss and representation learning for optimizing the feature space progressively. To capture the effects of fine-tuning on the base model, we extend task arithmetic by adaptively weighting the local task vectors concerning the fine-tuned models based on their GCD performance on a validation distribution. This episodic update mechanism boosts the adaptability of the base model to unseen targets. Experiments across three datasets confirm that DG2CD-Net outperforms existing GCD methods customized for DG-GCD.