Increasing the Efficiency of DETR for Maritime High-Resolution Images

作者: Tinsae Yehuala, Hao Cheng, Ville Lehtola

分类: cs.CV, cs.RO

发布日期: 2026-05-11

💡 一句话要点

针对海上高分辨率图像，提出基于ViM和token pruning的高效DETR目标检测方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 海上目标检测 无人水面艇 高分辨率图像 Vision Mamba Token Pruning

📋 核心要点

现有海上目标检测方法在高分辨率图像处理时，面临计算量大、内存需求高的问题，难以兼顾实时性和精度。
论文利用Vision Mamba (ViM) 骨干网络和定制的特征金字塔网络，结合token pruning策略，提升计算效率，适用于高分辨率图像。
实验表明，相较于RT-DETR等方法，该方法在海上目标检测任务中，实现了性能与计算效率的更好平衡。

📝 摘要（中文）

海上目标检测对于无人水面艇（USV）的安全航行至关重要，需要准确识别从小浮标到大型船只的障碍物。由于长距离、小目标尺寸、大尺度变化、边缘计算限制以及高分辨率图像的高内存需求，实时检测具有挑战性。现有的解决方案，如下采样或图像分割，通常会降低精度或需要额外的处理，而内存效率高的模型通常只能处理有限的分辨率。为了克服这些限制，我们利用Vision Mamba（ViM）骨干网络，它建立在状态空间模型（SSM）之上，以捕获长程依赖关系，同时随序列长度线性缩放。图像被标记化为序列，以实现高效的高分辨率处理。为了进一步提高计算效率，我们设计了一个定制的特征金字塔网络，具有连续的下采样和SSM层，以及token pruning，以减少背景区域上不必要的计算。与具有ResNet50骨干网络的RT-DETR等最先进的方法相比，我们的方法在海上目标检测中实现了性能和计算效率之间的更好平衡。

🔬 方法详解

问题定义：论文旨在解决海上高分辨率图像目标检测中，现有DETR类方法计算量大、内存消耗高的问题。现有方法如直接下采样会损失小目标信息，图像分割则引入额外处理步骤，而内存优化模型通常分辨率受限。这些问题限制了USV在边缘计算场景下的实时精确目标检测能力。

核心思路：核心思路是利用Vision Mamba (ViM) 的线性扩展性和长程依赖捕获能力，并结合token pruning减少背景区域的计算冗余，从而在保持或提升精度的前提下，显著降低计算成本。通过token序列化建模图像，更高效地处理高分辨率输入。

技术框架：整体框架基于DETR (DEtection TRansformer) 检测器。主要模块包括：1) ViM骨干网络，用于提取图像特征；2) 定制的特征金字塔网络 (FPN)，包含连续的下采样和SSM层，以构建多尺度特征表示；3) Token Pruning模块，用于去除不重要的背景tokens，减少计算量；4) DETR Head，进行最终的目标检测。整个流程是：输入图像 -> ViM特征提取 -> FPN多尺度特征构建 -> Token Pruning -> DETR Head目标预测。

关键创新：关键创新在于ViM骨干网络和Token Pruning策略的结合。ViM相比传统CNN/Transformer backbone，在高分辨率图像下具有更高的计算效率。Token Pruning则通过动态地减少tokens数量，降低了DETR计算复杂度。这种结合使得模型能够在高分辨率图像上实现高效的目标检测。

关键设计：论文中定制的FPN包含连续的下采样和SSM层，具体实现方式未知。Token Pruning的具体实现策略也未知，可能涉及到重要性评分和阈值筛选。ViM骨干网络的具体配置（层数、通道数等）也未在摘要中提及。损失函数沿用DETR的标准配置，包括Hungarian Loss和Box Regression Loss等。

🖼️ 关键图片

📊 实验亮点

论文提出的方法在海上目标检测任务中，相较于使用ResNet50骨干网络的RT-DETR等先进方法，在性能和计算效率之间取得了更好的平衡。具体的性能指标（如mAP、FPS）和提升幅度未在摘要中明确给出，但结论强调了在精度相当的情况下，计算效率得到了显著提升。

🎯 应用场景

该研究成果可应用于无人水面艇（USV）的自主导航、海上监控、港口安全管理等领域。通过提升高分辨率图像目标检测的效率，能够帮助USV更准确、更实时地感知周围环境，从而提高航行安全性与智能化水平。此外，相关技术也可推广到其他需要处理高分辨率图像的目标检测任务中。

📄 摘要（原文）

Maritime object detection is critical for the safe navigation of unmanned surface vessels (USVs), requiring accurate recognition of obstacles from small buoys to large vessels. Real-time detection is challenging due to long distances, small object sizes, large-scale variations, edge computing limitations, and the high memory demands of high-resolution imagery. Existing solutions, such as downsampling or image splitting, often reduce accuracy or require additional processing, while memory-efficient models typically handle only limited resolutions. To overcome these limitations, we leverage Vision Mamba (ViM) backbones, which build on State Space Models (SSMs) to capture long-range dependencies while scaling linearly with sequence length. Images are tokenized into sequences for efficient high-resolution processing. For further computational efficiency, we design a tailored Feature Pyramid Network with successive downsampling and SSM layers, as well as token pruning to reduce unnecessary computation on background regions. Compared to state-of-the-art methods like RT-DETR with ResNet50 backbone, our approach achieves a better balance between performance and computational efficiency in maritime object detection.

Increasing the Efficiency of DETR for Maritime High-Resolution Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理