Training-Free Model Merging for Multi-target Domain Adaptation
作者: Wenyi Li, Huan-ang Gao, Mingju Gao, Beiwen Tian, Rong Zhi, Hao Zhao
分类: cs.CV
发布日期: 2024-07-18
备注: Accepted to ECCV 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出一种免训练的多目标域自适应模型融合方法,解决数据访问限制问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 多目标域自适应 模型融合 免训练学习 领域泛化 场景理解
📋 核心要点
- 现有方法在多目标域自适应中假设可以同时访问所有目标域数据,忽略了数据隐私和带宽限制。
- 该论文提出一种免训练的模型融合方法,通过融合模型参数和模型缓冲区来解决上述问题。
- 实验结果表明,该方法在无需访问训练数据的情况下,实现了与数据组合训练基线相当的性能。
📝 摘要(中文)
本文研究了场景理解模型的多目标域自适应问题。虽然先前的方法通过域间一致性损失取得了显著成果,但它们通常假设可以同时访问所有目标域的图像,而忽略了数据传输带宽限制和数据隐私等约束。鉴于这些挑战,我们提出了一个问题:如何在绕过直接访问训练数据的情况下,融合独立适应于不同域的模型?我们针对此问题的解决方案包含两个组成部分:融合模型参数和融合模型缓冲区(即,归一化层统计信息)。对于融合模型参数,对模式连通性的经验分析令人惊讶地表明,当使用相同的预训练骨干权重来适应单独的模型时,线性融合就足够了。对于融合模型缓冲区,我们使用高斯先验对真实世界分布进行建模,并从单独训练的模型的缓冲区中估计新的统计信息。我们的方法简单而有效,在无需访问训练数据的情况下,实现了与数据组合训练基线相当的性能。
🔬 方法详解
问题定义:论文旨在解决多目标域自适应场景下,由于数据隐私、带宽限制等原因,无法同时访问所有目标域数据的问题。现有方法通常需要同时访问所有目标域的数据进行联合训练,这在实际应用中往往不可行。因此,如何在不访问原始数据的情况下,将独立训练的多个模型进行有效融合,是本文要解决的核心问题。
核心思路:论文的核心思路是,通过分别在各个目标域上独立训练模型,然后将这些模型进行融合,从而达到多目标域自适应的目的。融合过程分为两个关键步骤:模型参数融合和模型缓冲区融合。模型参数融合基于对模式连通性的观察,采用简单的线性融合策略。模型缓冲区融合则利用高斯先验对真实世界分布进行建模,并从各个模型的缓冲区中估计新的统计信息。
技术框架:该方法主要包含以下几个步骤: 1. 独立训练:在每个目标域上,使用相同的预训练骨干网络独立训练一个模型。 2. 模型参数融合:对独立训练的模型参数进行线性加权融合。论文发现,当使用相同的预训练骨干网络时,线性融合即可取得较好的效果。 3. 模型缓冲区融合:利用高斯先验对真实世界分布进行建模,并从独立训练的模型的缓冲区中估计新的统计信息,用于更新融合模型的归一化层统计信息。 4. 模型评估:在目标域上评估融合模型的性能。
关键创新:该方法最重要的创新点在于,它提出了一种免训练的模型融合方法,可以在不访问原始数据的情况下,将独立训练的多个模型进行有效融合。这解决了多目标域自适应场景下,数据隐私和带宽限制等问题。此外,论文还发现,当使用相同的预训练骨干网络时,线性融合即可取得较好的效果,这简化了模型参数融合的过程。
关键设计: * 线性参数融合:采用简单的线性加权平均方法融合模型参数,权重可以根据各个模型在对应目标域上的性能进行调整。 * 高斯先验缓冲区融合:假设真实世界分布服从高斯分布,利用各个模型的缓冲区统计信息估计高斯分布的参数,然后利用估计的参数更新融合模型的归一化层统计信息。 * 预训练骨干网络:所有模型都使用相同的预训练骨干网络,这有助于线性参数融合的有效性。
🖼️ 关键图片
📊 实验亮点
该方法在多个场景理解数据集上进行了实验,结果表明,该方法在无需访问训练数据的情况下,实现了与数据组合训练基线相当的性能。例如,在某个数据集上,该方法仅损失了1%的性能,但避免了访问大量训练数据。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人视觉、智慧城市等领域,在这些领域中,模型需要在多个不同的目标域上进行部署,但由于数据隐私或带宽限制,无法同时访问所有目标域的数据。该方法可以帮助在这些场景下,快速有效地构建多目标域自适应模型,降低部署成本,提高模型泛化能力。
📄 摘要(原文)
In this paper, we study multi-target domain adaptation of scene understanding models. While previous methods achieved commendable results through inter-domain consistency losses, they often assumed unrealistic simultaneous access to images from all target domains, overlooking constraints such as data transfer bandwidth limitations and data privacy concerns. Given these challenges, we pose the question: How to merge models adapted independently on distinct domains while bypassing the need for direct access to training data? Our solution to this problem involves two components, merging model parameters and merging model buffers (i.e., normalization layer statistics). For merging model parameters, empirical analyses of mode connectivity surprisingly reveal that linear merging suffices when employing the same pretrained backbone weights for adapting separate models. For merging model buffers, we model the real-world distribution with a Gaussian prior and estimate new statistics from the buffers of separately trained models. Our method is simple yet effective, achieving comparable performance with data combination training baselines, while eliminating the need for accessing training data. Project page: https://air-discover.github.io/ModelMerging