RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models

作者: Zijun Liao, Yian Zhao, Xin Shan, Yu Yan, Chang Liu, Lei Lu, Xiangyang Ji, Jie Chen

分类: cs.CV

发布日期: 2025-10-29

💡 一句话要点

RT-DETRv4：利用视觉基础模型，无痛提升实时目标检测性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 实时目标检测 知识蒸馏 视觉基础模型 DETR 深度语义注入

📋 核心要点

现有实时目标检测器受限于轻量化设计，特征表达能力不足，难以进一步提升性能。
论文提出基于视觉基础模型的蒸馏框架，通过深度语义注入和梯度引导的自适应调制，提升轻量级检测器性能。
RT-DETRv4模型系列在COCO数据集上取得了SOTA结果，并在不同速度下实现了显著的AP提升。

📝 摘要（中文）

实时目标检测通过精心设计的架构和优化策略取得了显著进展。然而，通过轻量级网络设计追求高速推理通常会导致特征表示能力下降，阻碍了性能的进一步提升和实际的设备端部署。本文提出了一种经济高效且高度适应性的蒸馏框架，利用快速发展的视觉基础模型（VFMs）的能力来增强轻量级目标检测器。考虑到VFMs和资源受限的检测器之间存在显著的架构和学习目标差异，实现稳定且任务对齐的语义迁移具有挑战性。为了解决这个问题，一方面，我们引入了一个深度语义注入器（DSI）模块，该模块有助于将VFMs的高级表示集成到检测器的深层。另一方面，我们设计了一种梯度引导的自适应调制（GAM）策略，该策略基于梯度范数比率动态调整语义迁移的强度。在不增加部署和推理开销的情况下，我们的方法在各种基于DETR的模型上实现了显著且一致的性能提升，突显了其在实时检测中的实际效用。我们的新模型系列RT-DETRv4在COCO上实现了最先进的结果，在273/169/124/78 FPS的速度下，AP分数分别达到49.7/53.5/55.4/57.0。

🔬 方法详解

问题定义：论文旨在解决实时目标检测中，轻量级模型因特征表达能力不足而导致的性能瓶颈问题。现有方法为了追求速度，牺牲了模型容量，导致检测精度难以提升，无法充分利用视觉基础模型（VFMs）的强大语义信息。

核心思路：论文的核心思路是利用视觉基础模型（VFMs）的强大特征表达能力，通过知识蒸馏的方式提升轻量级目标检测器的性能，同时避免增加推理负担。关键在于如何有效地将VFMs的语义信息迁移到轻量级检测器中，并解决两者之间的架构和学习目标差异。

技术框架：整体框架包含一个预训练的视觉基础模型（VFM）作为教师模型，和一个轻量级的DETR-based目标检测器作为学生模型。框架的核心模块包括：1) 深度语义注入器（DSI）：将VFM的高级语义特征注入到检测器的深层特征中。2) 梯度引导的自适应调制（GAM）：根据梯度信息动态调整语义迁移的强度。训练过程中，学生模型在DSI和GAM的辅助下，学习教师模型的知识。推理阶段，只需要学生模型，没有额外的计算开销。

关键创新：论文的关键创新在于DSI和GAM的设计。DSI解决了VFM和目标检测器之间特征层级不匹配的问题，通过深度注入的方式，将VFM的高级语义信息有效地传递到检测器中。GAM则解决了语义迁移强度控制的问题，通过梯度引导的方式，自适应地调整迁移强度，避免了过拟合和负迁移。

关键设计：DSI模块采用多层感知机（MLP）将VFM的特征映射到与检测器特征相同的维度，然后通过残差连接将映射后的特征注入到检测器的深层特征中。GAM模块计算教师模型和学生模型对应特征层的梯度范数比率，并使用该比率作为调制因子，动态调整语义迁移的强度。损失函数包括检测损失（如DETR的损失函数）和蒸馏损失，蒸馏损失用于衡量学生模型和教师模型特征之间的差异。

🖼️ 关键图片

📊 实验亮点

RT-DETRv4模型系列在COCO数据集上取得了显著的性能提升，在不同的速度下均达到了SOTA水平。例如，在273 FPS的速度下，AP达到了49.7；在78 FPS的速度下，AP达到了57.0。与之前的RT-DETR模型相比，RT-DETRv4在精度和速度上都取得了显著的提升，证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于对实时性要求较高的目标检测场景，如自动驾驶、机器人导航、视频监控等。通过利用视觉基础模型的知识，可以显著提升轻量级目标检测器的性能，使其在资源受限的设备上也能实现高精度检测。未来，该方法有望进一步扩展到其他视觉任务，如图像分割、目标跟踪等。

📄 摘要（原文）

Real-time object detection has achieved substantial progress through meticulously designed architectures and optimization strategies. However, the pursuit of high-speed inference via lightweight network designs often leads to degraded feature representation, which hinders further performance improvements and practical on-device deployment. In this paper, we propose a cost-effective and highly adaptable distillation framework that harnesses the rapidly evolving capabilities of Vision Foundation Models (VFMs) to enhance lightweight object detectors. Given the significant architectural and learning objective disparities between VFMs and resource-constrained detectors, achieving stable and task-aligned semantic transfer is challenging. To address this, on one hand, we introduce a Deep Semantic Injector (DSI) module that facilitates the integration of high-level representations from VFMs into the deep layers of the detector. On the other hand, we devise a Gradient-guided Adaptive Modulation (GAM) strategy, which dynamically adjusts the intensity of semantic transfer based on gradient norm ratios. Without increasing deployment and inference overhead, our approach painlessly delivers striking and consistent performance gains across diverse DETR-based models, underscoring its practical utility for real-time detection. Our new model family, RT-DETRv4, achieves state-of-the-art results on COCO, attaining AP scores of 49.7/53.5/55.4/57.0 at corresponding speeds of 273/169/124/78 FPS.

RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理