Learning from Neighbors: Category Extrapolation for Long-Tail Learning
作者: Shizhen Zhao, Xin Wen, Jiahui Liu, Chuofan Ma, Chunfeng Yuan, Xiaojuan Qi
分类: cs.CV
发布日期: 2024-10-21 (更新: 2024-12-08)
💡 一句话要点
提出基于邻域学习的类别外推方法,解决长尾学习中尾部类别泛化性差的问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长尾学习 类别外推 数据增强 大型语言模型 邻域学习
📋 核心要点
- 长尾数据分布下的深度学习面临样本多样性不足,导致尾部类别泛化能力差的挑战。
- 通过类别外推,引入视觉相似的辅助类别,增加数据集粒度,提升头部和尾部类别的特征表示学习。
- 实验表明,该方法在长尾基准数据集上显著优于现有方法,验证了其有效性。
📝 摘要(中文)
深度学习中,平衡长尾数据分布上的训练仍然是一个长期存在的挑战。虽然重加权和重采样等方法有助于缓解不平衡问题,但有限的样本多样性继续阻碍模型学习鲁棒和可泛化的特征表示,特别是对于尾部类别。与现有方法不同,我们对长尾学习提供了一个新的视角,灵感来自于一个观察:具有更细粒度的数据集往往较少受到数据不平衡的影响。在本文中,我们通过定量和定性研究来研究这种现象,表明增加粒度可以增强尾部类别中学习到的特征的泛化性。受这些发现的启发,我们提出了一种通过类别外推来增加数据集粒度的方法。具体来说,我们引入与现有类别在视觉上相似的开放集辅助类别,旨在增强头部和尾部类别的表示学习。这构成了我们方法的核心贡献和见解。为了自动化辅助数据的管理,我们利用大型语言模型(LLM)作为知识库来搜索辅助类别,并通过网络爬取检索相关图像。为了防止辅助类别的过度存在扰乱训练,我们引入了一种邻居静默损失,鼓励模型专注于目标数据集中的类别区分。在推理过程中,辅助类别的分类器权重被屏蔽掉,只留下目标类别权重供使用。在三个标准长尾基准上的大量实验和消融研究证明了我们方法的有效性,显著优于使用相同数据量的强基线方法。代码将公开。
🔬 方法详解
问题定义:长尾学习旨在解决数据集中类别分布不均衡的问题,即少数头部类别拥有大量样本,而多数尾部类别只有少量样本。现有方法如重采样、重加权等,虽然能缓解不平衡,但尾部类别样本少,导致模型学习到的特征缺乏泛化性。
核心思路:论文的核心思路是通过增加数据集的粒度来提升尾部类别的泛化能力。具体来说,引入与现有类别视觉上相似的辅助类别,从而增加尾部类别的样本多样性,提升模型对尾部类别的特征学习能力。论文观察到,更细粒度的数据集通常受数据不平衡的影响较小,因此通过增加类别粒度来改善长尾学习效果。
技术框架:整体框架包括三个主要步骤:1) 利用大型语言模型(LLM)作为知识库,搜索与现有类别视觉上相似的辅助类别,并通过网络爬取获取相关图像。2) 将辅助类别的数据与原始数据集混合,进行联合训练。3) 在推理阶段,屏蔽掉辅助类别的分类器权重,只使用原始类别的权重进行预测。
关键创新:该方法的核心创新在于提出了通过类别外推来增加数据集粒度的思想,并利用大型语言模型自动化地获取辅助数据。与传统方法不同,该方法不是直接对原始数据进行处理,而是通过引入新的数据来改善长尾学习效果。此外,邻居静默损失的设计也保证了模型在训练过程中能够专注于原始类别的区分。
关键设计:1) 辅助类别选择:使用LLM根据原始类别名称生成相关的辅助类别名称,并进行筛选。2) 数据爬取:使用爬虫从网络上下载辅助类别的图像数据。3) 邻居静默损失:设计了一种损失函数,鼓励模型在训练过程中区分原始类别,同时抑制辅助类别的影响。具体来说,该损失函数惩罚模型对辅助类别的预测置信度,从而使模型更加关注原始类别的特征学习。4) 推理阶段屏蔽:在推理阶段,将辅助类别的分类器权重设置为零,只使用原始类别的权重进行预测,避免辅助类别对最终结果产生干扰。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在三个标准长尾基准数据集上均取得了显著的性能提升。例如,在ImageNet-LT数据集上,该方法相比于基线方法取得了明显的提升,证明了其有效性。消融实验也验证了邻居静默损失和辅助类别选择策略的有效性。
🎯 应用场景
该研究成果可应用于图像识别、目标检测等领域,尤其是在数据分布不平衡的场景下,例如医疗诊断、罕见事件检测等。通过引入辅助类别,可以提升模型在尾部类别的识别精度,从而提高整体性能和鲁棒性。未来可以探索更智能的辅助类别选择方法,以及更有效的融合策略,进一步提升长尾学习的效果。
📄 摘要(原文)
Balancing training on long-tail data distributions remains a long-standing challenge in deep learning. While methods such as re-weighting and re-sampling help alleviate the imbalance issue, limited sample diversity continues to hinder models from learning robust and generalizable feature representations, particularly for tail classes. In contrast to existing methods, we offer a novel perspective on long-tail learning, inspired by an observation: datasets with finer granularity tend to be less affected by data imbalance. In this paper, we investigate this phenomenon through both quantitative and qualitative studies, showing that increased granularity enhances the generalization of learned features in tail categories. Motivated by these findings, we propose a method to increase dataset granularity through category extrapolation. Specifically, we introduce open-set auxiliary classes that are visually similar to existing ones, aiming to enhance representation learning for both head and tail classes. This forms the core contribution and insight of our approach. To automate the curation of auxiliary data, we leverage large language models (LLMs) as knowledge bases to search for auxiliary categories and retrieve relevant images through web crawling. To prevent the overwhelming presence of auxiliary classes from disrupting training, we introduce a neighbor-silencing loss that encourages the model to focus on class discrimination within the target dataset. During inference, the classifier weights for auxiliary categories are masked out, leaving only the target class weights for use. Extensive experiments and ablation studies on three standard long-tail benchmarks demonstrate the effectiveness of our approach, notably outperforming strong baseline methods that use the same amount of data. The code will be made publicly available.