SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling
作者: Guanghao Liao, Zhen Liu, Liyuan Cao, Yonghui Yang, Qi Li
分类: cs.CV
发布日期: 2026-02-26
备注: 31 pages, 10 figures, 6 tables. This paper presents SPMamba-YOLO, an underwater object detection framework integrating multi-scale feature enhancement and global context modeling. The work is under review
💡 一句话要点
SPMamba-YOLO:融合多尺度特征增强与全局上下文建模的水下目标检测网络
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 水下目标检测 多尺度特征增强 全局上下文建模 Mamba YOLOv8 SPPELAN PSA
📋 核心要点
- 水下目标检测面临光衰减、颜色失真和目标尺度小等难题,现有方法难以兼顾精度与效率。
- SPMamba-YOLO通过SPPELAN增强多尺度特征聚合,PSA机制抑制背景干扰,Mamba模块捕获全局上下文。
- 在URPC2022数据集上,SPMamba-YOLO的mAP@0.5比YOLOv8n基线提升4.9%,尤其在小目标检测上表现出色。
📝 摘要(中文)
本文提出了一种名为SPMamba-YOLO的新型水下目标检测网络,旨在解决水下环境中光衰减严重、颜色失真、背景杂乱以及目标尺度小等挑战。该网络集成了多尺度特征增强和全局上下文建模。具体而言,引入了空间金字塔池化增强层聚合网络(SPPELAN)模块,以加强多尺度特征聚合并扩大感受野;金字塔分割注意力(PSA)机制通过强调信息区域和抑制背景干扰来增强特征判别能力。此外,还结合了基于Mamba的状态空间建模模块,以有效地捕获长距离依赖关系和全局上下文信息,从而提高在复杂水下环境中检测的鲁棒性。在URPC2022数据集上的大量实验表明,SPMamba-YOLO的mAP@0.5比YOLOv8n基线提高了4.9%以上,尤其是在检测小型和密集分布的水下目标时,同时保持了检测精度和计算成本之间的良好平衡。
🔬 方法详解
问题定义:水下目标检测由于光线衰减、颜色失真、背景复杂以及目标尺寸小等因素,面临着巨大的挑战。现有的目标检测方法在水下环境中往往表现不佳,尤其是在小目标和密集目标的检测方面,精度和鲁棒性都有待提高。
核心思路:SPMamba-YOLO的核心思路是结合多尺度特征增强和全局上下文建模,以提高水下目标检测的精度和鲁棒性。通过增强特征的表达能力,抑制背景噪声,并利用全局信息来辅助目标检测。
技术框架:SPMamba-YOLO基于YOLOv8n框架,主要包含三个关键模块:SPPELAN(Spatial Pyramid Pooling Enhanced Layer Aggregation Network)、PSA(Pyramid Split Attention)和Mamba模块。SPPELAN用于增强多尺度特征聚合,PSA用于增强特征判别能力,Mamba模块用于捕获长距离依赖关系和全局上下文信息。整个网络流程是:输入图像经过 backbone 网络提取特征,然后通过 SPPELAN 进行多尺度特征融合,再通过 PSA 增强特征,最后利用 Mamba 模块进行全局上下文建模,最终输出目标检测结果。
关键创新:该论文的关键创新在于将Mamba状态空间模型引入到水下目标检测中,用于捕获长距离依赖关系和全局上下文信息。Mamba模型能够有效地处理序列数据,并具有线性复杂度,因此可以高效地建模全局上下文信息,从而提高检测的鲁棒性。此外,SPPELAN和PSA模块也分别在多尺度特征增强和特征判别方面做出了贡献。
关键设计:SPPELAN模块采用空间金字塔池化来扩大感受野,并使用层聚合网络来融合不同尺度的特征。PSA模块将特征图分割成多个金字塔层级,并对每个层级应用注意力机制,以突出信息区域并抑制背景干扰。Mamba模块使用选择性状态空间模型来建模长距离依赖关系。损失函数采用YOLOv8n的损失函数,包括分类损失、回归损失和置信度损失。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
SPMamba-YOLO在URPC2022数据集上进行了实验,结果表明,相比于YOLOv8n基线,SPMamba-YOLO的mAP@0.5提高了4.9%以上。尤其是在检测小型和密集分布的水下目标时,SPMamba-YOLO表现出更优越的性能。该研究在保持检测精度和计算成本之间取得了良好的平衡。
🎯 应用场景
SPMamba-YOLO在水下目标检测领域具有广泛的应用前景,例如水下机器人导航、海洋生物监测、水下基础设施巡检、水下考古等。该研究可以提高水下目标检测的精度和鲁棒性,为相关领域的应用提供技术支持,并有助于推动海洋科学和工程的发展。
📄 摘要(原文)
Underwater object detection is a critical yet challenging research problem owing to severe light attenuation, color distortion, background clutter, and the small scale of underwater targets. To address these challenges, we propose SPMamba-YOLO, a novel underwater object detection network that integrates multi-scale feature enhancement with global context modeling. Specifically, a Spatial Pyramid Pooling Enhanced Layer Aggregation Network (SPPELAN) module is introduced to strengthen multi-scale feature aggregation and expand the receptive field, while a Pyramid Split Attention (PSA) mechanism enhances feature discrimination by emphasizing informative regions and suppressing background interference. In addition, a Mamba-based state space modeling module is incorporated to efficiently capture long-range dependencies and global contextual information, thereby improving detection robustness in complex underwater environments. Extensive experiments on the URPC2022 dataset demonstrate that SPMamba-YOLO outperforms the YOLOv8n baseline by more than 4.9\% in mAP@0.5, particularly for small and densely distributed underwater objects, while maintaining a favorable balance between detection accuracy and computational cost.