SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

作者: Guanghao Liao, Zhen Liu, Liyuan Cao, Yonghui Yang, Qi Li

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

SPMamba-YOLO：融合多尺度特征增强与全局上下文建模的水下目标检测网络

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 水下目标检测 多尺度特征增强 全局上下文建模 Mamba YOLOv8 空间金字塔池化 注意力机制

📋 核心要点

水下目标检测面临光衰减、颜色失真和目标小等难题，现有方法难以兼顾精度与效率。
SPMamba-YOLO通过SPPELAN增强多尺度特征，PSA机制抑制噪声，Mamba模块建模全局上下文。
在URPC2022数据集上，SPMamba-YOLO的mAP@0.5超越YOLOv8n 4.9%，尤其在小目标检测上表现突出。

📝 摘要（中文）

本文提出了一种名为SPMamba-YOLO的新型水下目标检测网络，旨在解决水下环境光衰减严重、颜色失真、背景杂乱以及目标尺度小等挑战。该网络集成了多尺度特征增强和全局上下文建模。具体而言，引入了空间金字塔池化增强的层聚合网络（SPPELAN）模块，以增强多尺度特征聚合并扩大感受野；金字塔分割注意力（PSA）机制通过强调信息区域和抑制背景干扰来增强特征判别能力。此外，还结合了基于Mamba的状态空间建模模块，以有效地捕获长程依赖关系和全局上下文信息，从而提高在复杂水下环境中检测的鲁棒性。在URPC2022数据集上的大量实验表明，SPMamba-YOLO在mAP@0.5方面优于YOLOv8n基线超过4.9％，尤其是在检测小型和密集分布的水下目标时，同时保持了检测精度和计算成本之间的良好平衡。

🔬 方法详解

问题定义：水下目标检测由于光线衰减、颜色失真、背景复杂以及目标尺寸小等因素，面临着巨大的挑战。现有的目标检测方法在水下环境中往往表现不佳，尤其是在小目标和密集目标场景下，检测精度和鲁棒性难以保证。此外，计算资源也是一个限制因素，需要在精度和效率之间找到平衡。

核心思路：SPMamba-YOLO的核心思路是结合多尺度特征增强和全局上下文建模，以提高水下目标检测的精度和鲁棒性。通过SPPELAN模块增强多尺度特征的聚合能力，利用PSA机制抑制背景噪声，并引入Mamba模块来捕获长程依赖关系和全局上下文信息，从而更好地理解水下场景。

技术框架：SPMamba-YOLO的网络架构基于YOLOv8n，并在此基础上进行了改进。主要包括以下几个模块：1) SPPELAN模块：用于增强多尺度特征的聚合，扩大感受野。2) PSA机制：用于增强特征判别能力，抑制背景干扰。3) Mamba模块：用于捕获长程依赖关系和全局上下文信息。整体流程是：输入图像经过 backbone 网络提取特征，然后通过 SPPELAN 模块进行多尺度特征增强，再利用 PSA 机制进行特征选择，最后通过 Mamba 模块进行全局上下文建模，最终输出检测结果。

关键创新：该论文的关键创新在于将Mamba状态空间模型引入到水下目标检测中，用于捕获长程依赖关系和全局上下文信息。与传统的卷积神经网络相比，Mamba模块能够更有效地建模序列数据，从而更好地理解水下场景。此外，SPPELAN模块和PSA机制也进一步提升了特征的表达能力和判别能力。

关键设计：SPPELAN模块采用了空间金字塔池化（SPP）的思想，通过不同尺度的池化操作来提取多尺度特征。PSA机制通过金字塔分割的方式，将特征图分割成多个区域，并对每个区域进行注意力加权。Mamba模块的具体参数设置需要根据实际情况进行调整，以达到最佳的性能。损失函数方面，采用了YOLOv8n中使用的损失函数，包括分类损失、回归损失和置信度损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPMamba-YOLO在URPC2022数据集上取得了显著的性能提升，mAP@0.5指标超过YOLOv8n基线4.9%。尤其是在小目标和密集目标场景下，SPMamba-YOLO的检测精度明显优于其他方法。该研究在保持计算成本可控的前提下，实现了精度和效率的良好平衡。

🎯 应用场景

SPMamba-YOLO在水下机器人、水下探测、海洋资源勘探、水下环境监测、水下考古等领域具有广泛的应用前景。该研究可以提高水下目标检测的精度和鲁棒性，从而为相关应用提供更可靠的技术支持，助力海洋强国建设。

📄 摘要（原文）

Underwater object detection is a critical yet challenging research problem owing to severe light attenuation, color distortion, background clutter, and the small scale of underwater targets. To address these challenges, we propose SPMamba-YOLO, a novel underwater object detection network that integrates multi-scale feature enhancement with global context modeling. Specifically, a Spatial Pyramid Pooling Enhanced Layer Aggregation Network (SPPELAN) module is introduced to strengthen multi-scale feature aggregation and expand the receptive field, while a Pyramid Split Attention (PSA) mechanism enhances feature discrimination by emphasizing informative regions and suppressing background interference. In addition, a Mamba-based state space modeling module is incorporated to efficiently capture long-range dependencies and global contextual information, thereby improving detection robustness in complex underwater environments. Extensive experiments on the URPC2022 dataset demonstrate that SPMamba-YOLO outperforms the YOLOv8n baseline by more than 4.9\% in mAP@0.5, particularly for small and densely distributed underwater objects, while maintaining a favorable balance between detection accuracy and computational cost.

SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理