DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training

📄 arXiv: 2407.09174v4 📥 PDF

作者: Chen Xin, Andreas Hartel, Enkelejda Kasneci

分类: cs.CV, cs.AI

发布日期: 2024-07-12 (更新: 2025-06-22)

备注: Corrected minor typos; no changes to results or conclusions

期刊: Expert Systems with Applications 258 (2024): 125124

DOI: 10.1016/j.eswa.2024.125124

🔗 代码/项目: GITHUB


💡 一句话要点

DART:自动化端到端目标检测流水线,解决标注难题并提升检测精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 目标检测 自动化标注 数据生成 开放词汇检测 多模态审查

📋 核心要点

  1. 传统目标检测方法依赖人工标注和数据收集,难以适应快速变化的环境和新目标。
  2. DART通过数据生成、开放词汇标注、伪标签审查和模型训练,构建自动化目标检测流水线。
  3. 在工程机械数据集上,DART将目标检测平均精度从0.064显著提升至0.832。

📝 摘要(中文)

本文提出DART,一种创新的自动化端到端流水线,旨在革新从数据收集到模型评估的目标检测工作流程。DART消除了繁琐的人工标注和大量数据收集的需求,同时在各种场景中实现了出色的精度。DART包含四个关键阶段:(1) 使用主题驱动的图像生成(DreamBooth与SDXL)进行数据多样化;(2) 通过开放词汇目标检测(Grounding DINO)生成边界框和类别标签;(3) 通过大型多模态模型(InternVL-1.5和GPT-4o)审查生成的图像和伪标签,以保证可信度;(4) 使用验证后的数据训练实时目标检测器(YOLOv8和YOLOv10)。DART应用于一个自收集的工程机械数据集Liebherr Product,该数据集包含超过15K张高质量图像,涵盖23个类别。DART显著提高了平均精度(AP),从0.064提升到0.832。其模块化设计确保了易于交换和扩展,从而可以进行未来的算法升级,无缝集成新的对象类别,并适应定制环境,而无需手动标注和额外的数据收集。

🔬 方法详解

问题定义:传统目标检测方法需要大量人工标注数据,成本高昂且耗时,难以快速适应新的目标类别和环境变化。现有方法在处理长尾分布和数据稀缺问题时表现不佳,限制了其在实际工业场景中的应用。

核心思路:DART的核心思路是利用数据生成技术和开放词汇目标检测,自动化构建高质量的标注数据集,并结合多模态模型进行伪标签审查,从而降低人工标注成本,提高模型泛化能力。通过端到端的流水线设计,实现目标检测模型的快速训练和部署。

技术框架:DART包含四个主要阶段:1) 数据多样化:使用DreamBooth和SDXL等图像生成模型,根据给定的主题生成多样化的图像数据。2) 开放词汇标注:利用Grounding DINO等开放词汇目标检测器,自动生成图像中物体的边界框和类别标签。3) 伪标签审查:使用InternVL-1.5和GPT-4o等多模态模型,对生成的图像和伪标签进行审查,过滤掉质量较差的数据。4) 模型训练:使用YOLOv8和YOLOv10等实时目标检测器,在经过审查的数据集上进行训练。

关键创新:DART的关键创新在于将数据生成、开放词汇目标检测和多模态模型审查相结合,构建了一个完全自动化的目标检测流水线。与传统方法相比,DART无需人工标注,能够快速适应新的目标类别和环境,并有效提高目标检测精度。

关键设计:在数据生成阶段,使用DreamBooth和SDXL等模型,通过调整prompt和参数,控制生成图像的多样性和质量。在开放词汇标注阶段,使用Grounding DINO等模型,设置合适的置信度阈值,平衡召回率和准确率。在伪标签审查阶段,使用InternVL-1.5和GPT-4o等模型,设计合理的审查规则,过滤掉错误标注和低质量图像。在模型训练阶段,使用YOLOv8和YOLOv10等模型,采用合适的学习率和优化器,提高模型收敛速度和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DART在自收集的工程机械数据集Liebherr Product上进行了验证,该数据集包含超过15K张高质量图像,涵盖23个类别。实验结果表明,DART显著提高了目标检测的平均精度(AP),从0.064提升到0.832。这一结果表明,DART能够有效降低人工标注成本,提高目标检测精度,具有很强的实用价值。

🎯 应用场景

DART可广泛应用于工业自动化、智能制造、安防监控等领域。例如,在生产线上进行质量检测,识别缺陷产品;在建筑工地进行安全监控,检测工人是否佩戴安全帽;在智能交通系统中,识别车辆和行人。DART的自动化特性降低了部署成本,加速了模型迭代,为各行业智能化升级提供有力支持。

📄 摘要(原文)

Accurate real-time object detection is vital across numerous industrial applications, from safety monitoring to quality control. Traditional approaches, however, are hindered by arduous manual annotation and data collection, struggling to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an innovative automated end-to-end pipeline that revolutionizes object detection workflows from data collection to model evaluation. It eliminates the need for laborious human labeling and extensive data collection while achieving outstanding accuracy across diverse scenarios. DART encompasses four key stages: (1) Data Diversification using subject-driven image generation (DreamBooth with SDXL), (2) Annotation via open-vocabulary object detection (Grounding DINO) to generate bounding box and class labels, (3) Review of generated images and pseudo-labels by large multimodal models (InternVL-1.5 and GPT-4o) to guarantee credibility, and (4) Training of real-time object detectors (YOLOv8 and YOLOv10) using the verified data. We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current instantiation of DART significantly increases average precision (AP) from 0.064 to 0.832. Its modular design ensures easy exchangeability and extensibility, allowing for future algorithm upgrades, seamless integration of new object categories, and adaptability to customized environments without manual labeling and additional data collection. The code and dataset are released at https://github.com/chen-xin-94/DART.