When Dynamic Data Selection Meets Data Augmentation
作者: Suorong Yang, Peng Ye, Furao Shen, Dongzhan Zhou
分类: cs.LG, cs.AI, cs.CV
发布日期: 2025-05-02
期刊: ICML 2025
💡 一句话要点
提出动态数据选择与数据增强统一框架,提升训练效率与泛化性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态数据选择 数据增强 在线学习 模型鲁棒性 图像识别 深度学习 训练效率
📋 核心要点
- 现有动态数据选择方法减少了训练数据,但也限制了数据多样性,可能阻碍泛化能力。
- 论文提出在线训练框架,联合优化动态数据选择和数据增强,提升训练效率和模型性能。
- 实验表明,该方法在多个数据集上超越现有技术,降低训练成本,并增强模型的鲁棒性。
📝 摘要(中文)
本文提出了一种新颖的在线数据训练框架,首次统一了动态数据选择和数据增强,从而兼顾了训练效率和性能提升。该方法估计每个样本的局部密度和多模态语义一致性的联合分布,从而有针对性地选择适合增强的样本,同时抑制噪声或模糊数据的包含。这使得在不牺牲模型泛化能力的情况下,能够更大幅度地减少数据集大小。实验结果表明,该方法在各种基准数据集和架构上优于现有的最先进方法,例如在ImageNet-1k上减少50%的训练成本且性能无损。此外,该方法增强了抗噪声能力并提高了模型的鲁棒性,增强了其在实际场景中的实用性。
🔬 方法详解
问题定义:现有动态数据选择方法旨在加速训练过程,但减少训练数据量会降低数据多样性,从而影响模型的泛化能力。虽然数据增强可以提升数据多样性,但通常与数据选择独立进行优化,导致两者结合的效果不佳。因此,如何有效地结合动态数据选择和数据增强,在保证训练效率的同时提升模型性能,是一个亟待解决的问题。
核心思路:论文的核心思路是设计一个在线训练框架,将动态数据选择和数据增强统一起来进行优化。通过估计每个样本的局部密度和多模态语义一致性的联合分布,来判断样本是否适合进行数据增强。对于适合增强的样本,进行数据增强以提升数据多样性;对于噪声或模糊样本,则抑制其参与训练,从而提高训练效率和模型鲁棒性。
技术框架:该框架主要包含以下几个模块:1) 样本特征提取模块,用于提取样本的特征表示;2) 联合分布估计模块,用于估计每个样本的局部密度和多模态语义一致性的联合分布;3) 数据选择模块,根据联合分布的结果,选择适合进行数据增强的样本,并抑制噪声或模糊样本;4) 数据增强模块,对选择的样本进行数据增强,生成新的训练样本;5) 模型训练模块,利用选择和增强后的数据训练模型。整个框架以在线方式进行,即在每个训练迭代中动态地进行数据选择和增强。
关键创新:该论文的关键创新在于首次将动态数据选择和数据增强统一到一个框架中进行优化。通过估计样本的局部密度和多模态语义一致性的联合分布,实现了对样本的精细化选择,从而能够更有效地利用数据增强来提升模型性能。与现有方法相比,该方法能够更大幅度地减少数据集大小,同时保证甚至提升模型的泛化能力。
关键设计:在联合分布估计模块中,可以使用核密度估计或其他非参数方法来估计样本的局部密度。多模态语义一致性可以通过计算不同模态特征之间的相似度来衡量。数据选择模块可以采用阈值法或排序法来选择样本。数据增强模块可以使用各种常用的数据增强技术,如随机裁剪、旋转、翻转等。损失函数可以采用交叉熵损失或其他适用于具体任务的损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在ImageNet-1k数据集上能够减少50%的训练成本,同时保持甚至提升模型的性能。与其他最先进的动态数据选择方法相比,该方法在多个基准数据集上都取得了显著的性能提升,并且表现出更强的抗噪声能力和鲁棒性。
🎯 应用场景
该研究成果可广泛应用于各种需要高效训练和高鲁棒性模型的场景,例如图像识别、目标检测、自然语言处理等。特别是在数据量大、计算资源有限的情况下,该方法能够显著降低训练成本,提高模型性能。此外,该方法增强了模型的抗噪声能力,使其在实际应用中更加可靠。
📄 摘要(原文)
Dynamic data selection aims to accelerate training with lossless performance. However, reducing training data inherently limits data diversity, potentially hindering generalization. While data augmentation is widely used to enhance diversity, it is typically not optimized in conjunction with selection. As a result, directly combining these techniques fails to fully exploit their synergies. To tackle the challenge, we propose a novel online data training framework that, for the first time, unifies dynamic data selection and augmentation, achieving both training efficiency and enhanced performance. Our method estimates each sample's joint distribution of local density and multimodal semantic consistency, allowing for the targeted selection of augmentation-suitable samples while suppressing the inclusion of noisy or ambiguous data. This enables a more significant reduction in dataset size without sacrificing model generalization. Experimental results demonstrate that our method outperforms existing state-of-the-art approaches on various benchmark datasets and architectures, e.g., reducing 50\% training costs on ImageNet-1k with lossless performance. Furthermore, our approach enhances noise resistance and improves model robustness, reinforcing its practical utility in real-world scenarios.