Granular-ball Representation Learning for Deep CNN on Learning with Label Noise

📄 arXiv: 2409.03254v1 📥 PDF

作者: Dawei Dai, Hao Zhu, Shuyin Xia, Guoyin Wang

分类: cs.CV, cs.AI

发布日期: 2024-09-05


💡 一句话要点

提出基于粒球表示学习的深度CNN模型,提升含噪声标签数据下的模型鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 标签噪声 深度学习 鲁棒性 粒球计算 表示学习 卷积神经网络 图像分类

📋 核心要点

  1. 现有方法在处理标签噪声时,通常依赖数据清洗或优化策略,但可能导致数据损失,影响模型性能。
  2. 论文提出粒球计算(GBC)模块,将样本在特征层面分割成粒球,并预测粒球的标签,而非单个样本的标签。
  3. 实验结果表明,该方法无需额外数据或优化,即可有效提升CNN模型在含噪声标签数据下的鲁棒性。

📝 摘要(中文)

在实际场景中,无论是手动还是自动标注,训练数据中不可避免地会产生标签噪声,这会影响深度CNN模型的有效性。常用的解决方案需要数据清洗或设计额外的优化来惩罚带有错误标签的数据,从而增强模型的鲁棒性。然而,这些方法以削弱甚至丢失部分数据为代价。我们认为,内容是图像的固有属性,不会随标注的变化而变化。因此,我们提出了一种通用的粒球计算(GBC)模块,可以嵌入到CNN模型中,分类器最终预测粒球($gb$)样本的标签,而不是每个单独的样本。具体来说,对于分类任务:(1)在前向传播过程中,我们在特征级别将输入样本分割为$gb$样本,每个$gb$样本可以对应多个样本,数量可变,并共享一个标签;(2)在反向传播过程中,我们修改GBC模块的梯度分配策略,使其能够正常传播;(3)我们开发了一种经验回放策略,以确保训练过程的稳定性。实验表明,该方法可以在不使用额外数据或优化的情况下提高CNN模型的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决深度学习模型在训练数据包含标签噪声时,模型性能下降的问题。现有方法如数据清洗或损失函数修正,往往会损失一部分数据信息,或者引入额外的超参数调整,增加了训练的复杂性。

核心思路:论文的核心思想是利用图像的内容不变性,将多个样本聚合成一个“粒球”,并为该粒球分配一个标签。通过预测粒球的标签,而不是单个样本的标签,来减少标签噪声的影响。这种方法旨在保留更多的数据信息,同时提高模型的鲁棒性。

技术框架:该方法的核心是粒球计算(GBC)模块,它可以嵌入到现有的CNN模型中。整体流程如下:1. 输入样本经过CNN提取特征;2. 在特征层,样本被分割成多个粒球;3. GBC模块对粒球进行处理,预测粒球的标签;4. 使用修改后的梯度分配策略进行反向传播;5. 使用经验回放策略保证训练稳定性。

关键创新:该方法最重要的创新点在于提出了粒球表示学习的概念,将多个样本聚合为一个粒球,并预测粒球的标签。这种方法能够有效地减少标签噪声的影响,同时保留更多的数据信息。此外,修改后的梯度分配策略和经验回放策略也保证了训练过程的稳定性和有效性。

关键设计:GBC模块的关键设计包括:1. 如何将样本分割成粒球(分割策略,例如基于特征相似度);2. 如何为粒球分配标签(例如,使用多数投票);3. 如何修改梯度分配策略,使得梯度能够正常传播到每个样本;4. 经验回放策略的具体实现(例如,存储历史的粒球表示,并定期重放)。具体的损失函数和网络结构取决于所使用的CNN模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究提出的粒球表示学习方法,无需额外的数据清洗或优化,即可有效提升CNN模型在含噪声标签数据下的鲁棒性。实验结果表明,该方法在多个数据集上都取得了显著的性能提升,尤其是在标签噪声比例较高的情况下,提升幅度更为明显。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可广泛应用于图像分类、目标检测等计算机视觉任务中,尤其是在数据标注质量不高或存在大量噪声的场景下。例如,在医学图像分析、遥感图像处理等领域,由于标注成本高昂或存在主观性,标签噪声问题较为突出,该方法可以有效提升模型的性能和可靠性。未来,该方法还可以扩展到其他类型的数据和任务中,例如自然语言处理、语音识别等。

📄 摘要(原文)

In actual scenarios, whether manually or automatically annotated, label noise is inevitably generated in the training data, which can affect the effectiveness of deep CNN models. The popular solutions require data cleaning or designing additional optimizations to punish the data with mislabeled data, thereby enhancing the robustness of models. However, these methods come at the cost of weakening or even losing some data during the training process. As we know, content is the inherent attribute of an image that does not change with changes in annotations. In this study, we propose a general granular-ball computing (GBC) module that can be embedded into a CNN model, where the classifier finally predicts the label of granular-ball ($gb$) samples instead of each individual samples. Specifically, considering the classification task: (1) in forward process, we split the input samples as $gb$ samples at feature-level, each of which can correspond to multiple samples with varying numbers and share one single label; (2) during the backpropagation process, we modify the gradient allocation strategy of the GBC module to enable it to propagate normally; and (3) we develop an experience replay policy to ensure the stability of the training process. Experiments demonstrate that the proposed method can improve the robustness of CNN models with no additional data or optimization.