Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models

📄 arXiv: 2411.19757v1 📥 PDF

作者: Kaican Li, Weiyan Xie, Yongxiang Huang, Didan Deng, Lanqing Hong, Zhenguo Li, Ricardo Silva, Nevin L. Zhang

分类: cs.LG, cs.CV

发布日期: 2024-11-29

备注: NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出双重风险最小化(DRM)方法,提升零样本模型微调后的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 鲁棒微调 零样本学习 分布外泛化 双重风险最小化 核心特征 大语言模型 最坏情况风险

📋 核心要点

  1. 微调预训练模型时,模型的鲁棒性容易下降,尤其是在面对分布偏移时,这是一个关键挑战。
  2. DRM方法结合经验风险最小化和最坏情况风险最小化,利用LLM生成的核心特征描述来估计最坏情况风险,从而更好地保留核心特征。
  3. 实验表明,DRM在ImageNet、WILDS-iWildCam和WILDS-FMoW等数据集上显著提升了CLIP模型的分布外性能,达到了新的state-of-the-art。

📝 摘要(中文)

微调预训练模型常常会损害其对分布偏移的鲁棒性。为了解决这个问题,大多数鲁棒微调方法旨在保留预训练的特征。然而,并非所有预训练特征都是鲁棒的,并且这些方法在很大程度上忽略了应该保留哪些特征。我们提出了双重风险最小化(DRM),它结合了经验风险最小化和最坏情况风险最小化,以更好地保留下游任务的核心特征。特别地,我们利用LLM生成的核心特征描述来诱导基于核心的零样本预测,然后将其用作估计最坏情况风险的代理。DRM平衡了模型鲁棒性的两个关键方面:预期性能和最坏情况性能,在各种真实世界的基准测试中建立了新的技术水平。DRM显著提高了CLIP ViT-L/14@336在ImageNet(75.9到77.1),WILDS-iWildCam(47.1到51.8)和WILDS-FMoW(50.7到53.1)上的分布外性能;为鲁棒微调开辟了新的途径。我们的代码可在https://github.com/vaynexie/DRM 获得。

🔬 方法详解

问题定义:现有鲁棒微调方法主要关注保留预训练特征,但忽略了并非所有预训练特征都具有鲁棒性,且未区分哪些特征对于下游任务至关重要。这导致微调后的模型在面对分布偏移时,鲁棒性提升有限甚至下降。

核心思路:DRM的核心在于平衡模型的期望性能和最坏情况性能。通过引入最坏情况风险最小化,迫使模型关注并保留对下游任务至关重要的核心特征,从而提升模型的鲁棒性。利用LLM生成的核心特征描述作为先验知识,引导模型学习更鲁棒的特征表示。

技术框架:DRM方法主要包含以下几个阶段:1) 利用LLM生成下游任务的核心特征描述;2) 基于核心特征描述,生成核心引导的零样本预测;3) 利用零样本预测作为代理,估计最坏情况风险;4) 将经验风险最小化和最坏情况风险最小化结合,形成双重风险最小化目标函数,进行模型微调。

关键创新:DRM的关键创新在于引入了最坏情况风险最小化,并利用LLM生成的核心特征描述来指导最坏情况风险的估计。这使得模型能够有选择性地保留和学习对下游任务鲁棒性至关重要的特征,而非盲目地保留所有预训练特征。与现有方法相比,DRM更关注特征的质量而非数量。

关键设计:DRM的关键设计包括:1) 使用LLM(如GPT-3)生成核心特征描述的prompt工程;2) 如何将核心特征描述转化为可用于最坏情况风险估计的零样本预测;3) 如何平衡经验风险和最坏情况风险,例如通过调整损失函数的权重系数。损失函数通常是经验风险损失和最坏情况风险损失的加权和,权重系数需要根据具体任务进行调整。

📊 实验亮点

DRM在多个真实世界数据集上取得了显著的性能提升。在ImageNet上,DRM将CLIP ViT-L/14@336的性能从75.9%提升到77.1%。在WILDS-iWildCam上,性能从47.1%提升到51.8%。在WILDS-FMoW上,性能从50.7%提升到53.1%。这些结果表明DRM在提升模型分布外泛化能力方面的有效性。

🎯 应用场景

DRM方法可广泛应用于需要模型具备鲁棒性的场景,例如自动驾驶、医疗诊断、金融风控等。在这些领域,模型需要在面对各种未知的分布偏移时,依然能够保持较高的准确性和可靠性。DRM的提出为提升模型在这些关键领域的应用价值提供了新的思路。

📄 摘要(原文)

Fine-tuning foundation models often compromises their robustness to distribution shifts. To remedy this, most robust fine-tuning methods aim to preserve the pre-trained features. However, not all pre-trained features are robust and those methods are largely indifferent to which ones to preserve. We propose dual risk minimization (DRM), which combines empirical risk minimization with worst-case risk minimization, to better preserve the core features of downstream tasks. In particular, we utilize core-feature descriptions generated by LLMs to induce core-based zero-shot predictions which then serve as proxies to estimate the worst-case risk. DRM balances two crucial aspects of model robustness: expected performance and worst-case performance, establishing a new state of the art on various real-world benchmarks. DRM significantly improves the out-of-distribution performance of CLIP ViT-L/14@336 on ImageNet (75.9 to 77.1), WILDS-iWildCam (47.1 to 51.8), and WILDS-FMoW (50.7 to 53.1); opening up new avenues for robust fine-tuning. Our code is available at https://github.com/vaynexie/DRM .