Detect Anything in Real Time: From Single-Prompt Segmentation to Multi-Class Detection
作者: Mehmet Kerem Turkcan
分类: cs.CV
发布日期: 2026-03-12
🔗 代码/项目: GITHUB
💡 一句话要点
DART:一种实时的、无需训练的通用物体检测框架,显著加速SAM3推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 实时物体检测 多类别检测 视觉语言模型 SAM3 特征共享 零样本学习 模型加速
📋 核心要点
- 现有SAM3模型在多类别物体检测时,需对每个类别单独执行推理,效率低下,主要瓶颈在于视觉骨干网络的重复计算。
- DART框架利用视觉骨干网络类别无关的特性,实现特征共享,将骨干网络的计算复杂度从O(N)降至O(1),显著提升推理速度。
- 实验表明,DART在COCO数据集上实现了显著的加速,且精度超过了其他专门训练的开放词汇检测器,尤其是在多类别检测场景下。
📝 摘要(中文)
视觉-语言建模的最新进展产生了可提示的检测和分割系统,这些系统可以在推理时接受任意自然语言查询。其中,SAM3通过将ViT-H/14骨干网络与跨模态Transformer解码和学习到的对象查询相结合,实现了最先进的精度。然而,SAM3每次前向传播只处理一个文本提示。检测N个类别需要N次独立的执行,每次执行都由4.39亿参数的骨干网络主导。我们提出了Detect Anything in Real Time (DART),这是一个无需训练的框架,通过利用一个结构不变性将SAM3转换为实时多类检测器:视觉骨干网络是类别无关的,产生独立于文本提示的图像特征。这允许在所有类别之间共享骨干网络计算,将其成本从O(N)降低到O(1)。结合批处理多类解码、仅检测推理和TensorRT FP16部署,这些优化在3个类别时产生了5.6倍的累积加速,在80个类别时扩展到25倍,而无需修改任何模型权重。在COCO val2017(5,000张图像,80个类别)上,DART在单个RTX 4080上以15.8 FPS(4个类别,1008x1008)实现了55.8 AP,超过了在数百万个框注释上训练的专用开放词汇检测器。对于极端的延迟目标,使用冻结的编码器-解码器的适配器蒸馏实现了38.7 AP,骨干网络延迟为13.9 ms。代码和模型可在https://github.com/mkturkcan/DART 获得。
🔬 方法详解
问题定义:论文旨在解决现有基于SAM3的物体检测方法在多类别检测任务中效率低下的问题。SAM3需要对每个类别单独运行,导致视觉骨干网络重复计算,成为性能瓶颈。现有方法的痛点在于无法有效利用视觉特征的类别无关性,导致计算冗余。
核心思路:论文的核心思路是利用SAM3中视觉骨干网络与类别无关的特性,即骨干网络提取的图像特征不依赖于文本提示。通过共享骨干网络的计算,避免了对每个类别都进行一次完整的特征提取,从而显著降低了计算成本。
技术框架:DART框架主要包含以下几个阶段:1) 图像输入到共享的视觉骨干网络(ViT-H/14)中,提取类别无关的图像特征。2) 将提取的图像特征与不同类别的文本提示分别输入到跨模态Transformer解码器中。3) 对解码器的输出进行批处理多类解码,并行预测所有类别的物体。4) 可选的适配器蒸馏,进一步优化延迟。
关键创新:DART最重要的技术创新在于发现了并利用了SAM3视觉骨干网络的类别无关性,实现了特征共享。这与传统的物体检测方法不同,后者通常需要针对每个类别单独训练或微调模型。DART无需训练,即可将SAM3转化为高效的多类别检测器。
关键设计:DART的关键设计包括:1) 共享的ViT-H/14视觉骨干网络。2) 批处理多类解码,并行处理多个类别的预测。3) TensorRT FP16部署,进一步加速推理。4) 可选的适配器蒸馏,使用冻结的编码器-解码器,针对极低延迟目标进行优化。
🖼️ 关键图片
📊 实验亮点
DART在COCO val2017数据集上取得了显著的性能提升。在单个RTX 4080上,DART以15.8 FPS的速度(4个类别,1008x1008分辨率)实现了55.8 AP,超过了专门训练的开放词汇检测器。在80个类别下,DART实现了25倍的加速。通过适配器蒸馏,DART在保持较高精度的同时,将骨干网络延迟降低到13.9 ms。
🎯 应用场景
DART框架具有广泛的应用前景,可用于智能监控、自动驾驶、机器人视觉等领域。其高效的多类别检测能力使得在资源受限的设备上进行实时物体检测成为可能。未来,DART可以进一步扩展到更复杂的场景,例如视频物体检测、实例分割等,为人工智能应用提供更强大的支持。
📄 摘要(原文)
Recent advances in vision-language modeling have produced promptable detection and segmentation systems that accept arbitrary natural language queries at inference time. Among these, SAM3 achieves state-of-the-art accuracy by combining a ViT-H/14 backbone with cross-modal transformer decoding and learned object queries. However, SAM3 processes a single text prompt per forward pass. Detecting N categories requires N independent executions, each dominated by the 439M-parameter backbone. We present Detect Anything in Real Time (DART), a training-free framework that converts SAM3 into a real-time multi-class detector by exploiting a structural invariant: the visual backbone is class-agnostic, producing image features independent of the text prompt. This allows the backbone computation to be shared between all classes, reducing its cost from O(N) to O(1). Combined with batched multi-class decoding, detection-only inference, and TensorRT FP16 deployment, these optimizations yield 5.6x cumulative speedup at 3 classes, scaling to 25x at 80 classes, without modifying any model weight. On COCO val2017 (5,000 images, 80 classes), DART achieves 55.8 AP at 15.8 FPS (4 classes, 1008x1008) on a single RTX 4080, surpassing purpose-built open-vocabulary detectors trained on millions of box annotations. For extreme latency targets, adapter distillation with a frozen encoder-decoder achieves 38.7 AP with a 13.9 ms backbone. Code and models are available at https://github.com/mkturkcan/DART.