SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

📄 arXiv: 2602.22674 📥 PDF

作者: Guanghao Liao, Zhen Liu, Liyuan Cao, Yonghui Yang, Qi Li

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

SPMamba-YOLO:融合多尺度特征增强与全局上下文建模的水下目标检测网络

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 水下目标检测 多尺度特征增强 全局上下文建模 Mamba YOLOv8 空间金字塔池化 注意力机制

📋 核心要点

  1. 水下目标检测面临光衰减、颜色失真和目标小等难题,现有方法难以兼顾精度与效率。
  2. SPMamba-YOLO通过SPPELAN增强多尺度特征,PSA机制抑制噪声,Mamba模块建模全局上下文。
  3. 在URPC2022数据集上,SPMamba-YOLO的mAP@0.5超越YOLOv8n 4.9%,尤其在小目标检测上表现突出。

📝 摘要(中文)

本文提出了一种名为SPMamba-YOLO的新型水下目标检测网络,旨在解决水下环境光衰减严重、颜色失真、背景杂乱以及目标尺度小等挑战。该网络集成了多尺度特征增强和全局上下文建模。具体而言,引入了空间金字塔池化增强的层聚合网络(SPPELAN)模块,以增强多尺度特征聚合并扩大感受野;金字塔分割注意力(PSA)机制通过强调信息区域和抑制背景干扰来增强特征判别能力。此外,还结合了基于Mamba的状态空间建模模块,以有效地捕获长程依赖关系和全局上下文信息,从而提高在复杂水下环境中检测的鲁棒性。在URPC2022数据集上的大量实验表明,SPMamba-YOLO在mAP@0.5方面优于YOLOv8n基线超过4.9%,尤其是在检测小型和密集分布的水下目标时,同时保持了检测精度和计算成本之间的良好平衡。

🔬 方法详解

问题定义:水下目标检测由于光线衰减、颜色失真、背景复杂以及目标尺寸小等因素,面临着巨大的挑战。现有的目标检测方法在水下环境中往往表现不佳,尤其是在小目标和密集目标场景下,检测精度和鲁棒性难以保证。此外,计算资源也是一个限制因素,需要在精度和效率之间找到平衡。

核心思路:SPMamba-YOLO的核心思路是结合多尺度特征增强和全局上下文建模,以提高水下目标检测的精度和鲁棒性。通过SPPELAN模块增强多尺度特征的聚合能力,利用PSA机制抑制背景噪声,并引入Mamba模块来捕获长程依赖关系和全局上下文信息,从而更好地理解水下场景。

技术框架:SPMamba-YOLO的网络架构基于YOLOv8n,并在此基础上进行了改进。主要包括以下几个模块:1) SPPELAN模块:用于增强多尺度特征的聚合,扩大感受野。2) PSA机制:用于增强特征判别能力,抑制背景干扰。3) Mamba模块:用于捕获长程依赖关系和全局上下文信息。整体流程是:输入图像经过 backbone 网络提取特征,然后通过 SPPELAN 模块进行多尺度特征增强,再利用 PSA 机制进行特征选择,最后通过 Mamba 模块进行全局上下文建模,最终输出检测结果。

关键创新:该论文的关键创新在于将Mamba状态空间模型引入到水下目标检测中,用于捕获长程依赖关系和全局上下文信息。与传统的卷积神经网络相比,Mamba模块能够更有效地建模序列数据,从而更好地理解水下场景。此外,SPPELAN模块和PSA机制也进一步提升了特征的表达能力和判别能力。

关键设计:SPPELAN模块采用了空间金字塔池化(SPP)的思想,通过不同尺度的池化操作来提取多尺度特征。PSA机制通过金字塔分割的方式,将特征图分割成多个区域,并对每个区域进行注意力加权。Mamba模块的具体参数设置需要根据实际情况进行调整,以达到最佳的性能。损失函数方面,采用了YOLOv8n中使用的损失函数,包括分类损失、回归损失和置信度损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPMamba-YOLO在URPC2022数据集上取得了显著的性能提升,mAP@0.5指标超过YOLOv8n基线4.9%。尤其是在小目标和密集目标场景下,SPMamba-YOLO的检测精度明显优于其他方法。该研究在保持计算成本可控的前提下,实现了精度和效率的良好平衡。

🎯 应用场景

SPMamba-YOLO在水下机器人、水下探测、海洋资源勘探、水下环境监测、水下考古等领域具有广泛的应用前景。该研究可以提高水下目标检测的精度和鲁棒性,从而为相关应用提供更可靠的技术支持,助力海洋强国建设。

📄 摘要(原文)

Underwater object detection is a critical yet challenging research problem owing to severe light attenuation, color distortion, background clutter, and the small scale of underwater targets. To address these challenges, we propose SPMamba-YOLO, a novel underwater object detection network that integrates multi-scale feature enhancement with global context modeling. Specifically, a Spatial Pyramid Pooling Enhanced Layer Aggregation Network (SPPELAN) module is introduced to strengthen multi-scale feature aggregation and expand the receptive field, while a Pyramid Split Attention (PSA) mechanism enhances feature discrimination by emphasizing informative regions and suppressing background interference. In addition, a Mamba-based state space modeling module is incorporated to efficiently capture long-range dependencies and global contextual information, thereby improving detection robustness in complex underwater environments. Extensive experiments on the URPC2022 dataset demonstrate that SPMamba-YOLO outperforms the YOLOv8n baseline by more than 4.9\% in mAP@0.5, particularly for small and densely distributed underwater objects, while maintaining a favorable balance between detection accuracy and computational cost.