Beyond Mamba: Enhancing State-space Models with Deformable Dilated Convolutions for Multi-scale Traffic Object Detection

作者: Jun Li, Yingying Shi, Zhixuan Ruan, Nan Guo, Jianhua Xu

分类: cs.CV

发布日期: 2026-04-09

🔗 代码/项目: GITHUB

💡 一句话要点

提出MDDCNet，结合可变形卷积与Mamba，提升多尺度交通目标检测精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 交通目标检测 多尺度检测 Mamba 可变形卷积 扩张卷积 特征金字塔网络 注意力机制

📋 核心要点

现有基于Mamba的方法难以兼顾局部细节和全局语义，对小目标检测效果不佳，且缺乏有效的跨尺度特征交互。
MDDCNet通过混合骨干网络，结合MSDDC块和Mamba块，实现层次特征表示，并利用CE-FFN增强通道交互。
实验结果表明，MDDCNet在公共基准和真实数据集上均优于现有检测器，验证了其有效性。

📝 摘要（中文）

在真实的交通场景中，不同尺度的目标通常分布在杂乱的背景中，这对精确检测提出了巨大挑战。虽然目前基于Mamba的方法可以有效地建模长程依赖关系，但它们在捕获具有丰富局部细节的小目标方面仍然存在困难，这阻碍了局部结构和全局语义的联合建模。此外，由于扁平的序列建模和不足的空间归纳偏置，状态空间模型表现出有限的层次特征表示和较弱的跨尺度交互，导致在复杂场景中的性能欠佳。为了解决这些问题，本研究提出了一种带有可变形扩张卷积的Mamba网络(MDDCNet)，用于精确的交通目标检测。在MDDCNet中，一个精心设计的混合骨干网络，包含连续的多尺度可变形扩张卷积(MSDDC)块和Mamba块，能够实现从局部细节到全局语义的层次特征表示。同时，进一步设计了一个通道增强前馈网络(CE-FFN)，以克服传统前馈网络有限的通道交互能力，并构建了一个基于Mamba的注意力聚合特征金字塔网络(A^2FPN)，以实现增强的多尺度特征融合和交互。在公共基准和真实世界数据集上的大量实验结果表明，我们的方法优于各种先进的检测器。

🔬 方法详解

问题定义：论文旨在解决交通场景中多尺度目标检测的精度问题，特别是小目标检测的挑战。现有方法，尤其是基于Mamba的模型，虽然擅长长程依赖建模，但在捕获小目标的局部细节方面存在不足，同时缺乏有效的跨尺度特征融合机制，导致在复杂场景下的性能受限。

核心思路：论文的核心思路是结合Mamba模型的长程依赖建模能力和可变形扩张卷积对局部细节的捕获能力，构建一个混合架构，从而实现对多尺度目标的精确检测。通过引入可变形卷积，增强模型对目标形状变化的适应性，并利用扩张卷积扩大感受野，从而更好地捕获上下文信息。

技术框架：MDDCNet的整体架构包括以下几个主要模块：1) 混合骨干网络：由MSDDC块和Mamba块交替堆叠而成，用于提取层次化的特征表示。2) 通道增强前馈网络(CE-FFN)：用于增强特征通道之间的交互。3) 基于Mamba的注意力聚合特征金字塔网络(A^2FPN)：用于实现多尺度特征的融合和交互。整个流程是从输入图像开始，经过骨干网络提取特征，然后通过A^2FPN进行特征融合，最后进行目标检测。

关键创新：论文的关键创新在于将可变形扩张卷积与Mamba模型相结合，提出了MSDDC块，从而在局部细节捕获和全局语义建模之间取得了平衡。此外，CE-FFN和A^2FPN的设计也增强了模型的特征表达能力和跨尺度交互能力。与现有方法相比，MDDCNet能够更好地适应交通场景中复杂的目标分布和尺度变化。

关键设计：MSDDC块的关键设计包括可变形卷积的偏移量学习和扩张率的选择。CE-FFN的设计包括通道注意力机制的引入，用于增强重要通道的权重。A^2FPN的设计包括Mamba块的引入，用于建模跨尺度特征之间的长程依赖关系。损失函数方面，论文可能采用了常用的目标检测损失函数，如 Focal Loss 或 Smooth L1 Loss，具体细节未知。

🖼️ 关键图片

📊 实验亮点

论文在公共基准和真实世界数据集上进行了大量实验，结果表明MDDCNet优于各种先进的检测器。具体的性能数据和提升幅度在摘要中未明确给出，但强调了其优越性。代码已开源，方便其他研究者复现和改进。

🎯 应用场景

该研究成果可应用于智能交通系统中的车辆检测、行人检测、交通标志识别等领域，有助于提高自动驾驶系统的安全性和可靠性，并可用于交通监控和管理，例如交通流量分析、事故检测等。未来，该方法有望扩展到其他复杂场景下的目标检测任务，例如遥感图像分析、医学图像诊断等。

📄 摘要（原文）

In a real-world traffic scenario, varying-scale objects are usually distributed in a cluttered background, which poses great challenges to accurate detection. Although current Mamba-based methods can efficiently model long-range dependencies, they still struggle to capture small objects with abundant local details, which hinders joint modeling of local structures and global semantics. Moreover, state-space models exhibit limited hierarchical feature representation and weak cross-scale interaction due to flat sequential modeling and insufficient spatial inductive biases, leading to sub-optimal performance in complex scenes. To address these issues, we propose a Mamba with Deformable Dilated Convolutions Network (MDDCNet) for accurate traffic object detection in this study. In MDDCNet, a well-designed hybrid backbone with successive Multi-Scale Deformable Dilated Convolution (MSDDC) blocks and Mamba blocks enables hierarchical feature representation from local details to global semantics. Meanwhile, a Channel-Enhanced Feed-Forward Network (CE-FFN) is further devised to overcome the limited channel interaction capability of conventional feed-forward networks, whilst a Mamba-based Attention-Aggregating Feature Pyramid Network (A^2FPN) is constructed to achieve enhanced multi-scale feature fusion and interaction. Extensive experimental results on public benchmark and real-world datasets demonstrate the superiority of our method over various advanced detectors. The code is available at https://github.com/Bettermea/MDDCNet.

Beyond Mamba: Enhancing State-space Models with Deformable Dilated Convolutions for Multi-scale Traffic Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理