In Search of Forgotten Domain Generalization

📄 arXiv: 2410.08258v2 📥 PDF

作者: Prasanna Mayilvahanan, Roland S. Zimmermann, Thaddäus Wiedemer, Evgenia Rusak, Attila Juhos, Matthias Bethge, Wieland Brendel

分类: cs.CV

发布日期: 2024-10-10 (更新: 2025-06-06)

备注: ICLR 2025 camera-ready version


💡 一句话要点

构建大规模风格严格OOD数据集,揭示Web数据训练的OOD泛化假象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 领域泛化 Out-of-Domain 数据集构建 CLIP模型 风格迁移

📋 核心要点

  1. 现有OOD评估数据集可能存在测试域污染,无法真实反映模型的泛化能力。
  2. 构建了LAION-Natural和LAION-Rendition数据集,确保风格上与现有测试集严格OOD。
  3. 实验表明,大规模Web数据训练的CLIP模型,其性能很大程度依赖于域内数据。

📝 摘要(中文)

本文旨在重新审视领域泛化(OOD)问题,尤其是在大规模Web数据和预训练模型兴起的背景下。作者发现,当前评估OOD性能的数据集可能存在测试域污染问题,导致模型性能评估失真。为了解决这个问题,作者构建了两个大规模数据集LAION-Natural和LAION-Rendition,它们在风格上与ImageNet和DomainNet测试集严格OOD。通过在这些数据集上训练CLIP模型,研究表明模型性能很大程度上依赖于域内样本。这表明ImageNet时代的OOD泛化挑战依然存在,而Web数据训练可能仅仅产生了OOD泛化的错觉。此外,作者还探索了自然图像和渲染图像数据集的最佳混合比例,以实现跨域泛化。这项工作为大规模OOD鲁棒性评估提供了新的数据集和基准,为改进模型鲁棒性奠定了基础。

🔬 方法详解

问题定义:论文旨在解决Out-of-Domain (OOD) 泛化评估中存在的偏差问题。具体来说,随着大规模Web数据和预训练模型的出现,现有的OOD评估数据集可能包含了与训练集相似的样本(域污染),导致模型在这些数据集上的表现无法真实反映其在完全未见过的领域上的泛化能力。现有方法的痛点在于无法有效区分模型性能的提升是真正来自于OOD泛化能力的增强,还是仅仅因为测试集中包含了与训练集相似的样本。

核心思路:论文的核心思路是构建严格OOD的数据集,即确保测试集在风格上与训练集完全不同,从而消除域污染的影响,更准确地评估模型的OOD泛化能力。通过在这些严格OOD的数据集上训练和评估模型,可以更清晰地了解模型真正的泛化能力,并为改进模型鲁棒性提供更可靠的依据。

技术框架:论文主要包含以下几个阶段:1) 数据集构建:基于LAION数据集,通过特定的筛选策略,构建LAION-Natural和LAION-Rendition两个数据集,确保它们在风格上与ImageNet和DomainNet测试集严格OOD。2) 模型训练:使用CLIP模型在构建的数据集上进行训练。3) 性能评估:在ImageNet和DomainNet等数据集上评估模型的OOD泛化性能。4) 混合比例探索:系统性地探索LAION-Natural和LAION-Rendition数据集的最佳混合比例,以实现更好的跨域泛化。

关键创新:论文最重要的技术创新点在于构建了大规模的、风格严格OOD的数据集。与现有方法相比,这些数据集能够更有效地避免域污染,从而更准确地评估模型的OOD泛化能力。此外,论文还通过实验揭示了大规模Web数据训练可能产生的OOD泛化假象,为未来的OOD研究提供了新的视角。

关键设计:数据集构建的关键在于筛选策略,需要确保所选样本在风格上与目标测试集(如ImageNet和DomainNet)完全不同。论文可能采用了基于图像风格特征的聚类或分类方法,来选择具有特定风格的样本。此外,在混合LAION-Natural和LAION-Rendition数据集时,需要仔细调整混合比例,以平衡自然图像和渲染图像对模型泛化能力的影响。具体的损失函数和网络结构沿用了CLIP模型的设置,没有进行特别的修改。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在LAION-Natural和LAION-Rendition数据集上训练的CLIP模型,其在ImageNet和DomainNet上的OOD性能显著低于预期,这表明大规模Web数据训练可能仅仅产生了OOD泛化的错觉。通过调整LAION-Natural和LAION-Rendition的混合比例,可以进一步优化模型的跨域泛化能力。这些结果强调了严格OOD数据集在评估和改进模型鲁棒性方面的重要性。

🎯 应用场景

该研究成果可应用于各种需要高鲁棒性和泛化能力的计算机视觉任务,例如自动驾驶、医疗图像分析、机器人导航等。通过使用严格OOD的数据集进行训练和评估,可以提高模型在真实世界复杂环境中的可靠性和安全性。此外,该研究也为开发更有效的OOD泛化算法提供了新的思路。

📄 摘要(原文)

Out-of-Domain (OOD) generalization is the ability of a model trained on one or more domains to generalize to unseen domains. In the ImageNet era of computer vision, evaluation sets for measuring a model's OOD performance were designed to be strictly OOD with respect to style. However, the emergence of foundation models and expansive web-scale datasets has obfuscated this evaluation process, as datasets cover a broad range of domains and risk test domain contamination. In search of the forgotten domain generalization, we create large-scale datasets subsampled from LAION -- LAION-Natural and LAION-Rendition -- that are strictly OOD to corresponding ImageNet and DomainNet test sets in terms of style. Training CLIP models on these datasets reveals that a significant portion of their performance is explained by in-domain examples. This indicates that the OOD generalization challenges from the ImageNet era still prevail and that training on web-scale data merely creates the illusion of OOD generalization. Furthermore, through a systematic exploration of combining natural and rendition datasets in varying proportions, we identify optimal mixing ratios for model generalization across these domains. Our datasets and results re-enable meaningful assessment of OOD robustness at scale -- a crucial prerequisite for improving model robustness.