Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

📄 arXiv: 2405.10300v2 📥 PDF

作者: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang

分类: cs.CV

发布日期: 2024-05-16 (更新: 2024-06-01)

备注: homepage: https://deepdataspace.com/home

🔗 代码/项目: GITHUB


💡 一句话要点

Grounding DINO 1.5:推进开放集目标检测的“边缘”能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放集目标检测 目标检测 边缘计算 零样本学习 模型优化

📋 核心要点

  1. 现有开放集目标检测模型在泛化能力和边缘部署效率方面存在不足,难以同时兼顾性能和速度。
  2. Grounding DINO 1.5通过扩展模型规模、增强视觉骨干网络和扩大训练数据集来提升泛化能力,并设计轻量级模型以优化边缘部署。
  3. Grounding DINO 1.5 Pro在COCO和LVIS-minival上取得了新的SOTA结果,Grounding DINO 1.5 Edge在边缘设备上实现了高帧率和可观的零样本性能。

📝 摘要(中文)

本文介绍了IDEA研究院开发的Grounding DINO 1.5,这是一套先进的开放集目标检测模型,旨在推进开放集目标检测的“边缘”能力。该套件包含两个模型:Grounding DINO 1.5 Pro,一个高性能模型,旨在增强各种场景中的泛化能力;Grounding DINO 1.5 Edge,一个高效模型,针对许多需要边缘部署的应用中所需的速度进行了优化。Grounding DINO 1.5 Pro模型通过扩大模型架构、集成增强的视觉骨干网络以及将训练数据集扩展到超过2000万张带有grounding标注的图像来改进其前身,从而实现更丰富的语义理解。Grounding DINO 1.5 Edge模型虽然设计上为了效率而降低了特征尺度,但通过在相同的综合数据集上进行训练,保持了强大的检测能力。实证结果表明了Grounding DINO 1.5的有效性,其中Grounding DINO 1.5 Pro模型在COCO检测基准上达到了54.3 AP,在LVIS-minival零样本迁移基准上达到了55.7 AP,为开放集目标检测树立了新的记录。此外,Grounding DINO 1.5 Edge模型在通过TensorRT优化后,实现了75.2 FPS的速度,同时在LVIS-minival基准上获得了36.2 AP的零样本性能,使其更适合边缘计算场景。模型示例和带有API的演示将在https://github.com/IDEA-Research/Grounding-DINO-1.5-API上发布。

🔬 方法详解

问题定义:论文旨在解决开放集目标检测中模型泛化能力不足以及边缘设备部署效率低下的问题。现有方法通常难以在保持高性能的同时,满足边缘计算场景对速度的要求。

核心思路:论文的核心思路是分别设计高性能的Pro模型和高效率的Edge模型,Pro模型通过扩大模型规模和训练数据来提升泛化能力,Edge模型则通过降低特征尺度来优化速度,同时二者共享训练数据以保证性能。

技术框架:Grounding DINO 1.5包含两个主要模型:Pro和Edge。Pro模型采用了更大的模型架构和更强的视觉骨干网络,Edge模型则在Pro模型的基础上进行了简化,降低了特征尺度。两个模型都使用包含超过2000万张图像的大规模数据集进行训练。

关键创新:关键创新在于同时关注开放集目标检测的泛化能力和边缘部署效率,并分别设计了Pro和Edge两个模型来满足不同的需求。此外,大规模的训练数据集也是提升模型性能的关键因素。

关键设计:Pro模型使用了更深的网络结构和更复杂的注意力机制,Edge模型则通过减少网络层数和特征通道数来降低计算复杂度。训练过程中,使用了多种数据增强技术来提升模型的鲁棒性。TensorRT被用于优化Edge模型的推理速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Grounding DINO 1.5 Pro在COCO检测基准上达到了54.3 AP,在LVIS-minival零样本迁移基准上达到了55.7 AP,刷新了开放集目标检测的记录。Grounding DINO 1.5 Edge通过TensorRT优化后,在LVIS-minival基准上实现了36.2 AP的零样本性能,同时达到了75.2 FPS的速度,显著提升了边缘部署的效率。

🎯 应用场景

该研究成果可广泛应用于智能安防、自动驾驶、机器人导航、工业质检等领域。Grounding DINO 1.5 Pro可以用于需要高精度目标检测的场景,而Grounding DINO 1.5 Edge则更适合资源受限的边缘计算设备,例如无人机、智能摄像头等。该研究有助于推动开放集目标检测技术在实际场景中的应用。

📄 摘要(原文)

This paper introduces Grounding DINO 1.5, a suite of advanced open-set object detection models developed by IDEA Research, which aims to advance the "Edge" of open-set object detection. The suite encompasses two models: Grounding DINO 1.5 Pro, a high-performance model designed for stronger generalization capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an efficient model optimized for faster speed demanded in many applications requiring edge deployment. The Grounding DINO 1.5 Pro model advances its predecessor by scaling up the model architecture, integrating an enhanced vision backbone, and expanding the training dataset to over 20 million images with grounding annotations, thereby achieving a richer semantic understanding. The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced feature scales, maintains robust detection capabilities by being trained on the same comprehensive dataset. Empirical results demonstrate the effectiveness of Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot transfer benchmark, setting new records for open-set object detection. Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT, achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP on the LVIS-minival benchmark, making it more suitable for edge computing scenarios. Model examples and demos with API will be released at https://github.com/IDEA-Research/Grounding-DINO-1.5-API