Beyond Mamba: Enhancing State-space Models with Deformable Dilated Convolutions for Multi-scale Traffic Object Detection

📄 arXiv: 2604.08038v1 📥 PDF

作者: Jun Li, Yingying Shi, Zhixuan Ruan, Nan Guo, Jianhua Xu

分类: cs.CV

发布日期: 2026-04-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出MDDCNet,结合可变形卷积与Mamba,提升多尺度交通目标检测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 交通目标检测 多尺度检测 Mamba 可变形卷积 扩张卷积 特征金字塔网络 注意力机制

📋 核心要点

  1. 现有基于Mamba的方法难以兼顾局部细节和全局语义,对小目标检测效果不佳,且缺乏有效的跨尺度特征交互。
  2. MDDCNet通过混合骨干网络,结合MSDDC块和Mamba块,实现层次特征表示,并利用CE-FFN增强通道交互。
  3. 实验结果表明,MDDCNet在公共基准和真实数据集上均优于现有检测器,验证了其有效性。

📝 摘要(中文)

在真实的交通场景中,不同尺度的目标通常分布在杂乱的背景中,这对精确检测提出了巨大挑战。虽然目前基于Mamba的方法可以有效地建模长程依赖关系,但它们在捕获具有丰富局部细节的小目标方面仍然存在困难,这阻碍了局部结构和全局语义的联合建模。此外,由于扁平的序列建模和不足的空间归纳偏置,状态空间模型表现出有限的层次特征表示和较弱的跨尺度交互,导致在复杂场景中的性能欠佳。为了解决这些问题,本研究提出了一种带有可变形扩张卷积的Mamba网络(MDDCNet),用于精确的交通目标检测。在MDDCNet中,一个精心设计的混合骨干网络,包含连续的多尺度可变形扩张卷积(MSDDC)块和Mamba块,能够实现从局部细节到全局语义的层次特征表示。同时,进一步设计了一个通道增强前馈网络(CE-FFN),以克服传统前馈网络有限的通道交互能力,并构建了一个基于Mamba的注意力聚合特征金字塔网络(A^2FPN),以实现增强的多尺度特征融合和交互。在公共基准和真实世界数据集上的大量实验结果表明,我们的方法优于各种先进的检测器。

🔬 方法详解

问题定义:论文旨在解决交通场景中多尺度目标检测的精度问题,特别是小目标检测的挑战。现有方法,尤其是基于Mamba的模型,虽然擅长长程依赖建模,但在捕获小目标的局部细节方面存在不足,同时缺乏有效的跨尺度特征融合机制,导致在复杂场景下的性能受限。

核心思路:论文的核心思路是结合Mamba模型的长程依赖建模能力和可变形扩张卷积对局部细节的捕获能力,构建一个混合架构,从而实现对多尺度目标的精确检测。通过引入可变形卷积,增强模型对目标形状变化的适应性,并利用扩张卷积扩大感受野,从而更好地捕获上下文信息。

技术框架:MDDCNet的整体架构包括以下几个主要模块:1) 混合骨干网络:由MSDDC块和Mamba块交替堆叠而成,用于提取层次化的特征表示。2) 通道增强前馈网络(CE-FFN):用于增强特征通道之间的交互。3) 基于Mamba的注意力聚合特征金字塔网络(A^2FPN):用于实现多尺度特征的融合和交互。整个流程是从输入图像开始,经过骨干网络提取特征,然后通过A^2FPN进行特征融合,最后进行目标检测。

关键创新:论文的关键创新在于将可变形扩张卷积与Mamba模型相结合,提出了MSDDC块,从而在局部细节捕获和全局语义建模之间取得了平衡。此外,CE-FFN和A^2FPN的设计也增强了模型的特征表达能力和跨尺度交互能力。与现有方法相比,MDDCNet能够更好地适应交通场景中复杂的目标分布和尺度变化。

关键设计:MSDDC块的关键设计包括可变形卷积的偏移量学习和扩张率的选择。CE-FFN的设计包括通道注意力机制的引入,用于增强重要通道的权重。A^2FPN的设计包括Mamba块的引入,用于建模跨尺度特征之间的长程依赖关系。损失函数方面,论文可能采用了常用的目标检测损失函数,如 Focal Loss 或 Smooth L1 Loss,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在公共基准和真实世界数据集上进行了大量实验,结果表明MDDCNet优于各种先进的检测器。具体的性能数据和提升幅度在摘要中未明确给出,但强调了其优越性。代码已开源,方便其他研究者复现和改进。

🎯 应用场景

该研究成果可应用于智能交通系统中的车辆检测、行人检测、交通标志识别等领域,有助于提高自动驾驶系统的安全性和可靠性,并可用于交通监控和管理,例如交通流量分析、事故检测等。未来,该方法有望扩展到其他复杂场景下的目标检测任务,例如遥感图像分析、医学图像诊断等。

📄 摘要(原文)

In a real-world traffic scenario, varying-scale objects are usually distributed in a cluttered background, which poses great challenges to accurate detection. Although current Mamba-based methods can efficiently model long-range dependencies, they still struggle to capture small objects with abundant local details, which hinders joint modeling of local structures and global semantics. Moreover, state-space models exhibit limited hierarchical feature representation and weak cross-scale interaction due to flat sequential modeling and insufficient spatial inductive biases, leading to sub-optimal performance in complex scenes. To address these issues, we propose a Mamba with Deformable Dilated Convolutions Network (MDDCNet) for accurate traffic object detection in this study. In MDDCNet, a well-designed hybrid backbone with successive Multi-Scale Deformable Dilated Convolution (MSDDC) blocks and Mamba blocks enables hierarchical feature representation from local details to global semantics. Meanwhile, a Channel-Enhanced Feed-Forward Network (CE-FFN) is further devised to overcome the limited channel interaction capability of conventional feed-forward networks, whilst a Mamba-based Attention-Aggregating Feature Pyramid Network (A^2FPN) is constructed to achieve enhanced multi-scale feature fusion and interaction. Extensive experimental results on public benchmark and real-world datasets demonstrate the superiority of our method over various advanced detectors. The code is available at https://github.com/Bettermea/MDDCNet.