LIFT+: Lightweight Fine-Tuning for Long-Tail Learning
作者: Jiang-Xin Shi, Tong Wei, Yu-Feng Li
分类: cs.CV, cs.LG
发布日期: 2025-04-17
🔗 代码/项目: GITHUB
💡 一句话要点
提出LIFT+轻量级微调框架,解决长尾学习中重微调导致性能下降的问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长尾学习 轻量级微调 类条件分布 语义感知初始化 数据增强 测试时集成 预训练模型
📋 核心要点
- 现有长尾学习微调方法存在误用,重微调导致尾部类别性能下降,效率和精度均有提升空间。
- LIFT+通过轻量级微调优化一致的类条件分布,结合语义感知初始化、极简数据增强和测试时集成。
- 实验表明,LIFT+显著减少训练轮数和参数量,同时超越现有SOTA方法,实现高效准确的长尾学习。
📝 摘要(中文)
在基础模型时代,微调范式已成为解决长尾学习任务的重要方法。然而,微调策略对长尾学习性能的影响仍未得到充分探索。本文揭示了现有范式对微调方法的严重误用,在效率和准确性方面都存在显著的改进空间。具体而言,我们发现重微调(微调大部分模型参数)会导致尾部类别性能的显著下降,而轻量级微调则表现出更优越的效果。通过全面的理论和实验验证,我们认为这种现象源于重微调导致的不一致的类条件分布。基于此,我们提出了LIFT+,一个创新的轻量级微调框架,用于优化一致的类条件。此外,LIFT+还结合了语义感知的初始化、极简的数据增强和测试时集成,以增强基础模型的适应性和泛化能力。我们的框架提供了一个高效且准确的流程,可促进快速收敛和模型紧凑性。大量实验表明,LIFT+显著减少了训练轮数(从约100轮到≤15轮)和学习参数(小于1%),同时超越了最先进的方法。
🔬 方法详解
问题定义:长尾学习任务中,直接对预训练模型进行重微调会导致尾部类别性能显著下降。现有方法未能充分考虑微调策略对长尾数据分布的影响,导致模型在头部类别上过拟合,而尾部类别则欠拟合。这种不平衡的训练使得模型难以泛化到真实的长尾数据分布。
核心思路:LIFT+的核心思路是采用轻量级微调,仅更新少量参数,从而避免重微调带来的类条件分布不一致问题。通过保持大部分预训练模型的知识,并仅对特定层或参数进行微调,LIFT+能够更好地适应长尾数据,同时避免对头部类别的过度拟合。
技术框架:LIFT+框架主要包含三个关键模块:1) 轻量级微调:选择性地微调预训练模型中的少量参数。2) 语义感知初始化:利用语义信息初始化微调的参数,加速收敛并提高性能。3) 极简数据增强:采用少量数据增强策略,避免引入噪声,提高模型的泛化能力。4) 测试时集成:在测试阶段,使用多个微调后的模型进行集成,进一步提高性能。
关键创新:LIFT+的关键创新在于发现了重微调在长尾学习中的负面影响,并提出了轻量级微调作为解决方案。与现有方法相比,LIFT+更加关注类条件分布的一致性,并通过轻量级微调、语义感知初始化和极简数据增强等手段来优化这一目标。此外,LIFT+的测试时集成策略也进一步提高了模型的鲁棒性。
关键设计:LIFT+的关键设计包括:1) 轻量级微调参数的选择策略,例如选择特定层或特定类型的参数进行微调。2) 语义感知初始化的具体方法,例如使用预训练的词向量或知识图谱信息初始化参数。3) 极简数据增强策略的选择,例如仅使用少量随机裁剪或翻转。4) 测试时集成的具体方法,例如使用平均投票或加权投票。
🖼️ 关键图片
📊 实验亮点
LIFT+在多个长尾学习数据集上取得了显著的性能提升。例如,在ImageNet-LT数据集上,LIFT+超越了现有SOTA方法,同时将训练轮数从约100轮减少到≤15轮,并将学习参数减少到小于1%。这些结果表明,LIFT+是一种高效且准确的长尾学习方法,具有很强的实用价值。
🎯 应用场景
LIFT+适用于各种长尾学习场景,例如图像识别、自然语言处理和推荐系统。在这些场景中,数据分布通常是不平衡的,少数头部类别占据了大部分数据,而大量尾部类别则只有少量数据。LIFT+可以有效地提高模型在尾部类别上的性能,从而提高整体的准确性和公平性。该方法具有广泛的应用前景,可以应用于医疗诊断、金融风控、电商推荐等领域。
📄 摘要(原文)
The fine-tuning paradigm has emerged as a prominent approach for addressing long-tail learning tasks in the era of foundation models. However, the impact of fine-tuning strategies on long-tail learning performance remains unexplored. In this work, we disclose that existing paradigms exhibit a profound misuse of fine-tuning methods, leaving significant room for improvement in both efficiency and accuracy. Specifically, we reveal that heavy fine-tuning (fine-tuning a large proportion of model parameters) can lead to non-negligible performance deterioration on tail classes, whereas lightweight fine-tuning demonstrates superior effectiveness. Through comprehensive theoretical and empirical validation, we identify this phenomenon as stemming from inconsistent class conditional distributions induced by heavy fine-tuning. Building on this insight, we propose LIFT+, an innovative lightweight fine-tuning framework to optimize consistent class conditions. Furthermore, LIFT+ incorporates semantic-aware initialization, minimalist data augmentation, and test-time ensembling to enhance adaptation and generalization of foundation models. Our framework provides an efficient and accurate pipeline that facilitates fast convergence and model compactness. Extensive experiments demonstrate that LIFT+ significantly reduces both training epochs (from $\sim$100 to $\leq$15) and learned parameters (less than 1%), while surpassing state-of-the-art approaches by a considerable margin. The source code is available at https://github.com/shijxcs/LIFT-plus.