DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection
作者: Siheng Wang, Yanshu Li, Bohan Hu, Zhengdao Li, Haibo Zhan, Linshan Li, Weiming Liu, Ruizhi Qian, Guangxin Wu, Hao Zhang, Jifeng Shen, Piotr Koniusz, Zhengtao Yao, Junhao Dong, Qiang Sun
分类: cs.CV
发布日期: 2026-04-06
💡 一句话要点
提出DeCo-DETR,通过解耦认知实现高效的开放词汇目标检测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇目标检测 解耦认知 语义原型空间 视觉语言模型 零样本学习 DETR 目标检测 推理效率
📋 核心要点
- 现有开放词汇目标检测方法依赖文本编码器,计算开销大,且闭集精度与开放世界泛化能力存在trade-off。
- DeCo-DETR通过构建分层语义原型空间,解耦语义推理与定位,实现高效且可重用的语义表示。
- 实验表明,DeCo-DETR在提升推理效率的同时,实现了具有竞争力的零样本检测性能。
📝 摘要(中文)
开放词汇目标检测(OVOD)使模型能够识别超出预定义类别的对象,但现有方法在实际部署中仍然受到限制。多模态设计通常由于在推理时依赖文本编码器而产生大量的计算开销。紧密耦合的训练目标在闭集检测精度和开放世界泛化之间引入了权衡。因此,我们提出了解耦认知DETR(DeCo-DETR),这是一个以视觉为中心的框架,通过统一的解耦范式来解决这些挑战。DeCo-DETR不是依赖于在线文本编码,而是从预训练LVLM生成的区域级描述构建分层语义原型空间,并通过CLIP进行对齐,从而实现高效且可重用的语义表示。在此表示的基础上,该框架通过解耦的训练策略进一步将语义推理与定位分离,该策略将对齐和检测分离为并行的优化流。在标准OVOD基准上的大量实验表明,DeCo-DETR在显着提高推理效率的同时,实现了具有竞争力的零样本检测性能。这些结果突出了将语义认知与检测分离的有效性,为可扩展的OVOD系统提供了实际方向。
🔬 方法详解
问题定义:现有开放词汇目标检测方法在实际部署中面临计算效率和泛化能力的挑战。多模态方法依赖在线文本编码,推理成本高昂。同时,紧耦合的训练方式导致模型在已知类别上的检测精度和未知类别上的泛化能力之间存在trade-off。
核心思路:DeCo-DETR的核心思路是将语义认知与目标检测解耦。通过预先构建一个高效且可重用的语义原型空间,避免了推理时对文本编码器的依赖,从而降低计算成本。同时,解耦的训练策略允许模型分别优化语义对齐和目标检测,从而提升泛化能力。
技术框架:DeCo-DETR主要包含两个阶段:语义原型空间构建和解耦训练。首先,利用预训练的LVLM生成区域级别的描述,并通过CLIP模型对齐到视觉空间,构建分层语义原型空间。然后,采用解耦的训练策略,将语义对齐和目标检测分离为两个并行的优化分支。一个分支负责将视觉特征与语义原型对齐,另一个分支负责目标定位和分类。
关键创新:DeCo-DETR的关键创新在于解耦认知的设计。通过预先构建语义原型空间,避免了在线文本编码,显著提升了推理效率。同时,解耦的训练策略允许模型分别优化语义对齐和目标检测,从而提升了泛化能力。与现有方法相比,DeCo-DETR更加高效且具有更好的泛化性能。
关键设计:DeCo-DETR使用预训练的LVLM(如BLIP-2)生成区域级别的描述。CLIP模型用于将视觉特征和文本描述对齐到同一个语义空间。解耦训练策略通过两个独立的损失函数分别优化语义对齐和目标检测。具体的损失函数选择和网络结构细节(如DETR的变体)在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
DeCo-DETR在标准OVOD基准上取得了显著的性能提升。实验结果表明,DeCo-DETR在提升推理效率的同时,实现了具有竞争力的零样本检测性能。与现有方法相比,DeCo-DETR在多个指标上均取得了领先水平,证明了解耦认知策略的有效性。
🎯 应用场景
DeCo-DETR在智能安防、自动驾驶、机器人导航等领域具有广泛的应用前景。它可以用于识别监控视频中的异常行为、检测道路上的交通标志和行人、以及帮助机器人在复杂环境中进行导航。通过识别超出预定义类别的物体,DeCo-DETR可以提升系统的智能化水平和适应性,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Open-vocabulary Object Detection (OVOD) enables models to recognize objects beyond predefined categories, but existing approaches remain limited in practical deployment. On the one hand, multimodal designs often incur substantial computational overhead due to their reliance on text encoders at inference time. On the other hand, tightly coupled training objectives introduce a trade-off between closed-set detection accuracy and open-world generalization. Thus, we propose Decoupled Cognition DETR (DeCo-DETR), a vision-centric framework that addresses these challenges through a unified decoupling paradigm. Instead of depending on online text encoding, DeCo-DETR constructs a hierarchical semantic prototype space from region-level descriptions generated by pre-trained LVLMs and aligned via CLIP, enabling efficient and reusable semantic representation. Building upon this representation, the framework further disentangles semantic reasoning from localization through a decoupled training strategy, which separates alignment and detection into parallel optimization streams. Extensive experiments on standard OVOD benchmarks demonstrate that DeCo-DETR achieves competitive zero-shot detection performance while significantly improving inference efficiency. These results highlight the effectiveness of decoupling semantic cognition from detection, offering a practical direction for scalable OVOD systems.