Single-Pass Object-Focused Data Selection

📄 arXiv: 2412.10032v2 📥 PDF

作者: Niclas Popp, Dan Zhang, Jan Hendrik Metzen, Matthias Hein, Lukas Schott

分类: cs.CV

发布日期: 2024-12-13 (更新: 2025-06-04)


💡 一句话要点

提出对象聚焦数据选择方法以优化标注预算

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对象检测 数据选择 标注优化 计算机视觉 主动学习

📋 核心要点

  1. 现有的单次数据选择方法依赖图像级表示,未能有效超越随机选择,导致标注效率低下。
  2. 本文提出对象聚焦数据选择(OFDS),利用对象级特征确保对所有目标类别的语义覆盖,优化标注选择过程。
  3. 实验结果表明,OFDS在多个任务和领域中均优于随机选择和基线方法,结合人类标签与自动标签可获得最佳效果。

📝 摘要(中文)

在未标记图像数据丰富的情况下,高质量标注的成本成为重要的实际挑战:如何选择图像进行标注,以最有效地利用特定目标任务的标注预算?为了解决这个问题,本文关注单次数据选择,即在训练下游模型之前一次性选择所有待标注的数据。现有的单次数据选择方法依赖于图像级表示,未能在目标检测和分割任务中可靠地超越随机选择。我们提出了对象聚焦数据选择(OFDS),利用基础模型的对象级特征,确保所有目标类别的语义覆盖。在多个任务和目标领域的广泛实验中,OFDS始终优于随机选择和所有基线方法。对于受限的标注预算,结合OFDS的人类标签与基础模型的自动标签可以获得最佳结果。此外,使用OFDS选择主动学习的初始标注集也带来了持续的改进。

🔬 方法详解

问题定义:本文解决的问题是如何在标注预算有限的情况下,选择最有效的图像进行标注。现有方法主要依赖图像级别的特征,未能在目标检测和分割任务中有效提升性能,导致标注效率低下。

核心思路:论文提出的对象聚焦数据选择(OFDS)方法,核心在于利用基础模型提取的对象级特征,确保对所有目标类别的语义覆盖,从而提高标注选择的有效性。这样的设计旨在克服现有方法的局限性,提升数据选择的准确性和效率。

技术框架:OFDS的整体架构包括数据预处理、对象特征提取、语义覆盖评估和数据选择四个主要模块。首先,通过基础模型提取图像中的对象级特征,然后评估这些特征在目标类别上的覆盖情况,最后根据评估结果进行数据选择。

关键创新:OFDS的关键创新在于引入对象级特征而非传统的图像级特征,这一转变使得方法能够更好地捕捉目标类别的语义信息,从而显著提升选择效果。与现有方法相比,OFDS在多个任务中表现出更高的选择效率和准确性。

关键设计:在技术细节上,OFDS采用了特定的损失函数来优化对象级特征的选择过程,并在网络结构中引入了多层次的特征提取模块,以增强模型对不同目标类别的识别能力。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,OFDS在多个任务和目标领域中均优于随机选择和所有基线方法,尤其是在受限标注预算下,结合人类标签与自动标签的组合取得了最佳结果,提升幅度显著。

🎯 应用场景

该研究的潜在应用领域包括计算机视觉中的目标检测和分割任务,尤其是在标注数据稀缺的情况下。通过优化标注选择,OFDS能够显著提高数据利用效率,降低标注成本,具有广泛的实际价值和未来影响。

📄 摘要(原文)

While unlabeled image data is often plentiful, the costs of high-quality labels pose an important practical challenge: Which images should one select for labeling to use the annotation budget for a particular target task most effectively? To address this problem, we focus on single-pass data selection, which refers to the process of selecting all data to be annotated at once before training a downstream model. Prior methods for single-pass data selection rely on image-level representations and fail to reliably outperform random selection for object detection and segmentation. We propose Object-Focused Data Selection (OFDS) which leverages object-level features from foundation models and ensures semantic coverage of all target classes. In extensive experiments across tasks and target domains, OFDS consistently outperforms random selection and all baselines. The best results for constrained annotation budgets are obtained by combining human labels from OFDS with autolabels from foundation models. Moreover, using OFDS to select the initial labeled set for active learning yields consistent improvements