RTGen: Real-Time Generative Detection Transformer

📄 arXiv: 2502.20622v2 📥 PDF

作者: Chi Ruan, Jiying Zhao, Wenhu Chen

分类: cs.CV

发布日期: 2025-02-28 (更新: 2025-11-14)


💡 一句话要点

提出RTGen:一种实时生成式检测Transformer,解决开放词汇目标检测的速度瓶颈。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 目标检测 生成式模型 Transformer 实时性 开放词汇

📋 核心要点

  1. 现有开放词汇目标检测器依赖预定义文本提示或分类器头,限制了其灵活性和泛化能力。
  2. RTGen提出一种区域-语言解码器(RL-Decoder),在统一框架内联合解码视觉和文本信息,实现非自回归类别命名。
  3. RTGen-R34在T4 GPU上达到131.3 FPS,速度远超GenerateU,且无需外部监督即可生成类别名称。

📝 摘要(中文)

开放词汇目标检测器虽然可以泛化到未见过的类别,但在推理过程中仍然依赖于预定义的文本提示或分类器头。最近的生成式目标检测器通过将自回归语言模型与检测器骨干网络相结合来解决这一限制,从而能够为每个检测到的对象直接生成类别名称。然而,这种直接的设计引入了结构冗余和显著的延迟。本文提出了一种实时生成式检测Transformer(RTGen),这是一种具有简洁编码器-解码器架构的实时生成式目标检测器。具体来说,我们引入了一种新颖的区域-语言解码器(RL-Decoder),它在统一的框架内联合解码视觉和文本表示。文本侧被组织为有向无环图(DAG),从而实现非自回归类别命名。受益于这些设计,RTGen-R34在T4 GPU上实现了131.3 FPS,比GenerateU快270倍以上。此外,我们的模型学会了直接从检测标签生成类别名称,而无需依赖外部监督,例如CLIP或预训练的语言模型,从而实现高效且灵活的开放式检测。

🔬 方法详解

问题定义:现有开放词汇目标检测方法在推理时依赖预定义的文本提示或分类器头,限制了其在实际应用中的灵活性和效率。生成式目标检测器虽然尝试解决这个问题,但由于结构冗余和自回归生成方式,导致推理速度显著下降,难以满足实时性需求。

核心思路:RTGen的核心思路是设计一种简洁高效的编码器-解码器架构,通过联合解码视觉和文本信息,实现快速的非自回归类别命名。通过引入区域-语言解码器(RL-Decoder)和有向无环图(DAG)结构,避免了自回归生成带来的延迟,并减少了模型冗余。

技术框架:RTGen采用编码器-解码器架构。编码器负责提取图像的视觉特征,解码器(RL-Decoder)则负责联合解码视觉特征和文本信息,生成目标类别名称。RL-Decoder将文本侧组织为DAG,实现非自回归的类别命名。整个流程无需外部监督,直接从检测标签学习生成类别名称。

关键创新:RTGen的关键创新在于RL-Decoder的设计,它将视觉和文本信息在统一框架内进行联合解码,并利用DAG结构实现非自回归的类别命名。这种设计显著提高了推理速度,并减少了模型对外部监督的依赖。

关键设计:RL-Decoder包含视觉分支和文本分支,视觉分支处理编码器输出的视觉特征,文本分支则构建DAG结构,表示类别名称的生成过程。损失函数方面,可能采用了交叉熵损失或类似的损失函数,用于优化类别名称的生成。具体的网络结构细节(如Transformer层数、隐藏层维度等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RTGen-R34在T4 GPU上实现了131.3 FPS,比GenerateU快270倍以上,显著提升了生成式目标检测的推理速度。此外,RTGen无需依赖外部监督(如CLIP或预训练语言模型),可以直接从检测标签学习生成类别名称,提高了模型的灵活性和效率。

🎯 应用场景

RTGen具有广泛的应用前景,例如智能监控、自动驾驶、机器人导航等领域。它可以实现对场景中目标的实时检测和识别,并且能够识别未知的目标类别,提高了系统的适应性和智能化水平。未来,RTGen可以进一步扩展到其他视觉任务,例如图像描述、视频理解等。

📄 摘要(原文)

Although open-vocabulary object detectors can generalize to unseen categories, they still rely on predefined textual prompts or classifier heads during inference. Recent generative object detectors address this limitation by coupling an autoregressive language model with a detector backbone, enabling direct category name generation for each detected object. However, this straightforward design introduces structural redundancy and substantial latency. In this paper, we propose a Real-Time Generative Detection Transformer (RTGen), a real-time generative object detector with a succinct encoder-decoder architecture. Specifically, we introduce a novel Region-Language Decoder (RL-Decoder) that jointly decodes visual and textual representations within a unified framework. The textual side is organized as a Directed Acyclic Graph (DAG), enabling non-autoregressive category naming. Benefiting from these designs, RTGen-R34 achieves 131.3 FPS on T4 GPUs, over 270x faster than GenerateU. Moreover, our models learn to generate category names directly from detection labels, without relying on external supervision such as CLIP or pretrained language models, achieving efficient and flexible open-ended detection.