LIFT+: Lightweight Fine-Tuning for Long-Tail Learning

作者: Jiang-Xin Shi, Tong Wei, Yu-Feng Li

分类: cs.CV, cs.LG

发布日期: 2025-04-17

🔗 代码/项目: GITHUB

💡 一句话要点

提出LIFT+轻量级微调框架，解决长尾学习中重微调导致性能下降的问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长尾学习 轻量级微调 类条件分布 语义感知初始化 数据增强 测试时集成 预训练模型

📋 核心要点

现有长尾学习微调方法存在误用，重微调导致尾部类别性能下降，效率和精度均有提升空间。
LIFT+通过轻量级微调优化一致的类条件分布，结合语义感知初始化、极简数据增强和测试时集成。
实验表明，LIFT+显著减少训练轮数和参数量，同时超越现有SOTA方法，实现高效准确的长尾学习。

📝 摘要（中文）

在基础模型时代，微调范式已成为解决长尾学习任务的重要方法。然而，微调策略对长尾学习性能的影响仍未得到充分探索。本文揭示了现有范式对微调方法的严重误用，在效率和准确性方面都存在显著的改进空间。具体而言，我们发现重微调（微调大部分模型参数）会导致尾部类别性能的显著下降，而轻量级微调则表现出更优越的效果。通过全面的理论和实验验证，我们认为这种现象源于重微调导致的不一致的类条件分布。基于此，我们提出了LIFT+，一个创新的轻量级微调框架，用于优化一致的类条件。此外，LIFT+还结合了语义感知的初始化、极简的数据增强和测试时集成，以增强基础模型的适应性和泛化能力。我们的框架提供了一个高效且准确的流程，可促进快速收敛和模型紧凑性。大量实验表明，LIFT+显著减少了训练轮数（从约100轮到≤15轮）和学习参数（小于1%），同时超越了最先进的方法。

🔬 方法详解

问题定义：长尾学习任务中，直接对预训练模型进行重微调会导致尾部类别性能显著下降。现有方法未能充分考虑微调策略对长尾数据分布的影响，导致模型在头部类别上过拟合，而尾部类别则欠拟合。这种不平衡的训练使得模型难以泛化到真实的长尾数据分布。

核心思路：LIFT+的核心思路是采用轻量级微调，仅更新少量参数，从而避免重微调带来的类条件分布不一致问题。通过保持大部分预训练模型的知识，并仅对特定层或参数进行微调，LIFT+能够更好地适应长尾数据，同时避免对头部类别的过度拟合。

技术框架：LIFT+框架主要包含三个关键模块：1) 轻量级微调：选择性地微调预训练模型中的少量参数。2) 语义感知初始化：利用语义信息初始化微调的参数，加速收敛并提高性能。3) 极简数据增强：采用少量数据增强策略，避免引入噪声，提高模型的泛化能力。4) 测试时集成：在测试阶段，使用多个微调后的模型进行集成，进一步提高性能。

关键创新：LIFT+的关键创新在于发现了重微调在长尾学习中的负面影响，并提出了轻量级微调作为解决方案。与现有方法相比，LIFT+更加关注类条件分布的一致性，并通过轻量级微调、语义感知初始化和极简数据增强等手段来优化这一目标。此外，LIFT+的测试时集成策略也进一步提高了模型的鲁棒性。

关键设计：LIFT+的关键设计包括：1) 轻量级微调参数的选择策略，例如选择特定层或特定类型的参数进行微调。2) 语义感知初始化的具体方法，例如使用预训练的词向量或知识图谱信息初始化参数。3) 极简数据增强策略的选择，例如仅使用少量随机裁剪或翻转。4) 测试时集成的具体方法，例如使用平均投票或加权投票。

🖼️ 关键图片

📊 实验亮点

LIFT+在多个长尾学习数据集上取得了显著的性能提升。例如，在ImageNet-LT数据集上，LIFT+超越了现有SOTA方法，同时将训练轮数从约100轮减少到≤15轮，并将学习参数减少到小于1%。这些结果表明，LIFT+是一种高效且准确的长尾学习方法，具有很强的实用价值。

🎯 应用场景

LIFT+适用于各种长尾学习场景，例如图像识别、自然语言处理和推荐系统。在这些场景中，数据分布通常是不平衡的，少数头部类别占据了大部分数据，而大量尾部类别则只有少量数据。LIFT+可以有效地提高模型在尾部类别上的性能，从而提高整体的准确性和公平性。该方法具有广泛的应用前景，可以应用于医疗诊断、金融风控、电商推荐等领域。

📄 摘要（原文）

The fine-tuning paradigm has emerged as a prominent approach for addressing long-tail learning tasks in the era of foundation models. However, the impact of fine-tuning strategies on long-tail learning performance remains unexplored. In this work, we disclose that existing paradigms exhibit a profound misuse of fine-tuning methods, leaving significant room for improvement in both efficiency and accuracy. Specifically, we reveal that heavy fine-tuning (fine-tuning a large proportion of model parameters) can lead to non-negligible performance deterioration on tail classes, whereas lightweight fine-tuning demonstrates superior effectiveness. Through comprehensive theoretical and empirical validation, we identify this phenomenon as stemming from inconsistent class conditional distributions induced by heavy fine-tuning. Building on this insight, we propose LIFT+, an innovative lightweight fine-tuning framework to optimize consistent class conditions. Furthermore, LIFT+ incorporates semantic-aware initialization, minimalist data augmentation, and test-time ensembling to enhance adaptation and generalization of foundation models. Our framework provides an efficient and accurate pipeline that facilitates fast convergence and model compactness. Extensive experiments demonstrate that LIFT+ significantly reduces both training epochs (from $\sim$100 to $\leq$15) and learned parameters (less than 1%), while surpassing state-of-the-art approaches by a considerable margin. The source code is available at https://github.com/shijxcs/LIFT-plus.

LIFT+: Lightweight Fine-Tuning for Long-Tail Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理