Domain-Aware Fine-Tuning of Foundation Models

作者: Ugur Ali Kaplan, Margret Keuper, Anna Khoreva, Dan Zhang, Yumeng Li

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-07-03 (更新: 2024-07-10)

备注: Accepted at ICML 2024 Workshop on Foundation Models in the Wild

💡 一句话要点

提出Domino：一种领域自适应归一化方法，提升基础模型在领域迁移下的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 领域自适应 基础模型 领域偏移 归一化 文本嵌入

📋 核心要点

现有基础模型在领域偏移下性能下降，缺乏对特定领域的适应性。
提出Domino，一种领域自适应归一化方法，通过领域嵌入增强模型对特定领域的感知。
Domino在多个未见领域表现出强大的适应性，提升了模型的鲁棒性。

📝 摘要（中文）

基础模型（FMs）已经彻底改变了计算机视觉领域，实现了跨不同领域的有效学习。然而，它们在领域偏移下的性能尚未得到充分探索。本文通过比较不同的骨干网络架构，并引入利用领域相关文本嵌入的新型领域感知组件，研究了FMs的零样本领域自适应潜力。我们提出了一种领域自适应归一化方法，称为Domino，它在微调期间显式地利用领域嵌入，从而使模型具有领域感知能力。最终，Domino实现了更强大的计算机视觉模型，可以有效地适应各种未见过的领域。

🔬 方法详解

问题定义：论文旨在解决基础模型在面对领域偏移时性能下降的问题。现有方法通常忽略了领域之间的差异，导致模型在未见过的领域泛化能力不足。因此，如何使模型能够感知并适应不同的领域是关键挑战。

核心思路：论文的核心思路是利用领域相关的文本嵌入，显式地将领域信息融入到模型的训练过程中。通过让模型学习领域嵌入与视觉特征之间的关系，使其能够更好地理解和适应不同领域的特点。

技术框架：Domino的整体框架是在基础模型的微调阶段引入领域自适应归一化层。具体来说，首先获取领域相关的文本描述，并将其编码为领域嵌入。然后，将领域嵌入作为Domino层的输入，用于调整归一化参数，从而使模型能够根据不同的领域动态地调整其特征表示。

关键创新：Domino的关键创新在于它显式地利用领域嵌入来指导模型的微调过程。与传统的微调方法相比，Domino能够使模型更好地感知和适应不同的领域，从而提高其在领域偏移下的泛化能力。

关键设计：Domino层采用了一种简单的线性变换，将领域嵌入映射到归一化参数的尺度和偏移量。损失函数包括标准的交叉熵损失和额外的正则化项，用于约束领域嵌入的学习。具体的网络结构和参数设置需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

论文提出的Domino方法在多个领域偏移数据集上取得了显著的性能提升。实验结果表明，Domino能够有效地提高模型在未见领域的泛化能力，并且优于传统的微调方法。具体的性能提升幅度取决于数据集和任务，但总体而言，Domino能够带来显著的改进。

🎯 应用场景

该研究成果可应用于各种需要处理领域偏移的计算机视觉任务，例如医学图像分析、自动驾驶和遥感图像处理。通过提高模型在不同领域的泛化能力，可以减少对大量标注数据的依赖，降低模型部署的成本，并提高模型的可靠性。

📄 摘要（原文）

Foundation models (FMs) have revolutionized computer vision, enabling effective learning across different domains. However, their performance under domain shift is yet underexplored. This paper investigates the zero-shot domain adaptation potential of FMs by comparing different backbone architectures and introducing novel domain-aware components that leverage domain related textual embeddings. We propose domain adaptive normalization, termed as Domino, which explicitly leverages domain embeddings during fine-tuning, thus making the model domain aware. Ultimately, Domino enables more robust computer vision models that can adapt effectively to various unseen domains.

Domain-Aware Fine-Tuning of Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理