DaWin: Training-free Dynamic Weight Interpolation for Robust Adaptation

📄 arXiv: 2410.03782v4 📥 PDF

作者: Changdae Oh, Yixuan Li, Kyungwoo Song, Sangdoo Yun, Dongyoon Han

分类: cs.LG, cs.CV

发布日期: 2024-10-03 (更新: 2025-05-29)

备注: ICLR 2025 camera-ready; typo-fixed


💡 一句话要点

DaWin:免训练的动态权重插值方法,提升模型在分布偏移下的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态权重插值 免训练学习 鲁棒性提升 分布偏移 视觉识别

📋 核心要点

  1. 现有权重插值方法在适应下游任务时,因其静态性难以应对分布偏移,导致性能受限。
  2. DaWin通过熵评估模型在每个样本上的专业性,动态计算权重插值系数,无需额外训练。
  3. 实验表明,DaWin在多个视觉识别基准上显著提升了模型鲁棒性,且计算开销很小。

📝 摘要(中文)

本文提出了一种免训练的动态权重插值方法DaWin,旨在提升预训练模型在下游任务中面对分布偏移时的鲁棒性,无需重新训练整个模型。尽管现有的权重插值方法简单有效,但其静态特性限制了下游性能。DaWin利用每个模型在每个未标记测试样本上的熵来评估模型专业性,并动态计算每个样本的插值系数。与依赖额外训练来学习这些系数的先前工作不同,DaWin无需训练。此外,本文提出了一种混合建模方法,大大降低了动态插值带来的推理开销。在大型视觉识别基准上,包括ImageNet及其五个分布偏移变体,以及八个分类任务的多任务学习,验证了DaWin的有效性。结果表明,DaWin在考虑的设置中实现了显著的性能提升,且计算开销极小。本文还进一步讨论了DaWin的分析行为,以解释其经验上的成功。

🔬 方法详解

问题定义:现有权重插值方法在将预训练模型应用于下游任务时,通常采用静态的权重分配策略。这种静态性无法根据不同样本的特性调整权重,导致模型在面对分布偏移时表现不佳。因此,如何动态地调整权重,以提升模型在各种分布下的鲁棒性,是一个关键问题。

核心思路:DaWin的核心思路是利用模型在每个未标记测试样本上的熵来评估模型的“专业性”。熵值越高,表示模型对该样本的预测越不确定,专业性越低;反之,熵值越低,专业性越高。基于此,DaWin动态地为每个样本计算插值系数,使得更“专业”的模型在最终预测中占据更大的权重。

技术框架:DaWin的整体框架包括以下几个步骤:1) 使用多个预训练模型;2) 对每个未标记的测试样本,计算每个模型的预测结果;3) 计算每个模型预测结果的熵值;4) 基于熵值,动态计算每个模型的插值系数;5) 使用计算得到的插值系数,对各个模型的预测结果进行加权平均,得到最终的预测结果。为了降低动态插值带来的推理开销,论文还提出了一种混合建模方法。

关键创新:DaWin最关键的创新在于其动态权重插值策略,该策略无需任何训练即可实现。与需要额外训练来学习插值系数的方法不同,DaWin直接利用模型自身的预测结果来评估其专业性,并动态调整权重。这种免训练的特性使得DaWin更加高效和易于应用。

关键设计:DaWin的关键设计在于熵的计算和插值系数的生成。论文使用softmax输出的概率分布计算熵值。插值系数的计算方式是基于熵值的归一化,使得熵值越低的模型的权重越高。此外,混合建模方法通过将多个模型的预测结果聚类成不同的簇,并为每个簇选择一个代表性的模型,从而降低了推理开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DaWin在多个大规模视觉识别基准上取得了显著的性能提升。在ImageNet及其五个分布偏移变体上,DaWin优于现有的静态权重插值方法。在多任务学习中,DaWin在八个分类任务上也取得了优异的表现。实验结果表明,DaWin能够有效地提升模型在各种分布下的鲁棒性,且计算开销极小。

🎯 应用场景

DaWin具有广泛的应用前景,可用于提升各种视觉识别任务中模型的鲁棒性,尤其是在数据分布存在偏移的情况下。例如,在自动驾驶、医疗图像分析等领域,模型需要应对各种复杂和变化的场景,DaWin可以帮助模型更好地适应这些场景,提高预测的准确性和可靠性。此外,DaWin的免训练特性使其易于部署和应用,具有很高的实际价值。

📄 摘要(原文)

Adapting a pre-trained foundation model on downstream tasks should ensure robustness against distribution shifts without the need to retrain the whole model. Although existing weight interpolation methods are simple yet effective, we argue that their static nature limits downstream performance while achieving efficiency. In this work, we propose DaWin, a training-free dynamic weight interpolation method that leverages the entropy of individual models over each unlabeled test sample to assess model expertise, and compute per-sample interpolation coefficients dynamically. Unlike previous works that typically rely on additional training to learn such coefficients, our approach requires no training. Then, we propose a mixture modeling approach that greatly reduces inference overhead raised by dynamic interpolation. We validate DaWin on the large-scale visual recognition benchmarks, spanning 14 tasks across robust fine-tuning -- ImageNet and derived five distribution shift benchmarks -- and multi-task learning with eight classification tasks. Results demonstrate that DaWin achieves significant performance gain in considered settings, with minimal computational overhead. We further discuss DaWin's analytic behavior to explain its empirical success.