Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

作者: Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang

分类: cs.CV

发布日期: 2024-09-13 (更新: 2024-09-18)

💡 一句话要点

Mamba-YOLO-World：融合Mamba的YOLO-World，用于开放词汇目标检测

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 YOLO Mamba 状态空间模型 特征融合 选择性扫描 多模态学习

📋 核心要点

YOLO-World在开放词汇检测中表现出色，但其颈部特征融合机制存在计算复杂度和感受野受限的问题。
Mamba-YOLO-World通过引入MambaFusion-PAN，利用状态空间模型进行特征融合，实现了线性复杂度和全局引导感受野。
实验结果表明，Mamba-YOLO-World在COCO和LVIS数据集上优于YOLO-World，并在参数量和计算量上优于其他OVD方法。

📝 摘要（中文）

本文提出了一种名为Mamba-YOLO-World的新型基于YOLO的开放词汇目标检测模型。该模型采用提出的MambaFusion路径聚合网络（MambaFusion-PAN）作为其颈部架构，旨在解决YOLO-World颈部特征融合机制导致的二次复杂度和有限的引导感受野问题。具体而言，本文引入了一种基于状态空间模型的创新特征融合机制，该机制由并行引导选择性扫描算法和串行引导选择性扫描算法组成，具有线性复杂度和全局引导感受野。它利用多模态输入序列和Mamba隐藏状态来指导选择性扫描过程。实验表明，我们的模型在零样本和微调设置下，在COCO和LVIS基准测试中均优于原始YOLO-World，同时保持了相当的参数和FLOPs。此外，它以更少的参数和FLOPs超越了现有的最先进的OVD方法。

🔬 方法详解

问题定义：开放词汇目标检测旨在检测预定义类别之外的对象。YOLO-World虽然在速度和效率方面表现出色，但其颈部特征融合机制导致了二次复杂度，限制了引导感受野，阻碍了其性能。因此，需要一种更高效、更有效的特征融合方法来提升YOLO-World在开放词汇检测中的性能。

核心思路：本文的核心思路是利用Mamba模型的选择性扫描机制，构建一种新的特征融合方法，即MambaFusion-PAN。Mamba模型具有线性复杂度和全局感受野，可以有效地融合多尺度特征，并利用多模态信息指导特征选择，从而提升检测性能。

技术框架：Mamba-YOLO-World的整体架构与YOLO-World类似，主要区别在于颈部网络。MambaFusion-PAN取代了原有的PAN结构，用于特征融合。MambaFusion-PAN包含并行引导选择性扫描（Parallel-Guided Selective Scan）和串行引导选择性扫描（Serial-Guided Selective Scan）两个模块。多模态输入（例如图像和文本）被用于指导选择性扫描过程。

关键创新：最重要的技术创新点是MambaFusion-PAN，它利用Mamba模型的选择性扫描机制进行特征融合。与传统的卷积或Transformer方法相比，MambaFusion-PAN具有线性复杂度和全局感受野，可以更有效地融合多尺度特征，并利用多模态信息指导特征选择。这使得Mamba-YOLO-World能够在保持效率的同时，提升检测性能。

关键设计：MambaFusion-PAN包含并行和串行两种选择性扫描模块。并行模块同时处理多个尺度的特征，而串行模块则逐层处理特征。Mamba模型的隐藏状态被用于指导选择性扫描过程，从而实现更有效的特征融合。具体参数设置和损失函数与YOLO-World保持一致，以确保模型的稳定性和兼容性。

🖼️ 关键图片

📊 实验亮点

Mamba-YOLO-World在COCO和LVIS数据集上进行了实验，结果表明其性能优于原始YOLO-World。在零样本设置下，Mamba-YOLO-World在COCO数据集上取得了显著的提升。此外，Mamba-YOLO-World在参数量和计算量上与YOLO-World相当，甚至优于一些现有的开放词汇目标检测方法，证明了其高效性。

🎯 应用场景

Mamba-YOLO-World在开放词汇目标检测领域具有广泛的应用前景，例如智能安防、自动驾驶、机器人视觉等。它可以用于检测未知类别的物体，提高系统的鲁棒性和适应性。未来，该模型可以进一步扩展到其他视觉任务，例如图像分割、目标跟踪等，为人工智能应用提供更强大的支持。

📄 摘要（原文）

Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency. However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields. To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process. Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理