DA-Mamba: Learning Domain-Aware State Space Model for Global-Local Alignment in Domain Adaptive Object Detection

📄 arXiv: 2603.18757v1 📥 PDF

作者: Haochen Li, Rui Zhang, Hantao Yao, Xin Zhang, Yifan Hao, Shaohui Peng, Yongwei Zhao, Ling Li

分类: cs.CV

发布日期: 2026-03-19

备注: Accepted by CVPR 2026


💡 一句话要点

提出DA-Mamba,利用领域感知状态空间模型实现领域自适应目标检测中的全局-局部对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 领域自适应目标检测 状态空间模型 全局-局部对齐 跨域学习 深度学习

📋 核心要点

  1. 现有DAOD方法依赖CNN,其局部连接性限制了全局领域不变特征的提取,而Transformer计算成本高昂。
  2. DA-Mamba结合CNN和SSM,利用SSM的线性时间长程建模能力,同时捕获全局和局部领域不变特征。
  3. 实验结果表明,DA-Mamba能够有效提升目标检测器在跨域场景下的性能表现。

📝 摘要(中文)

领域自适应目标检测(DAOD)旨在将检测器从带标签的源域迁移到无标签的目标域。现有的DAOD方法采用多粒度特征对齐来学习领域不变的表示。然而,基于CNN的骨干网络和检测头的局部连接性限制了对局部区域的对齐,无法提取全局领域不变特征。虽然基于Transformer的DAOD方法通过注意力机制捕获全局依赖关系,但其二次计算成本阻碍了实际部署。为了解决这个问题,我们提出了DA-Mamba,一种混合CNN-状态空间模型(SSM)架构,它结合了CNN的效率和SSM的线性时间长程建模能力,以捕获全局和局部领域不变特征。具体来说,我们引入了两个新的模块:图像感知SSM (IA-SSM)和对象感知SSM (OA-SSM)。IA-SSM集成到骨干网络中,以增强全局领域感知,实现图像级别的全局和局部对齐。OA-SSM插入到检测头中,以建模对象之间的空间和语义依赖关系,增强实例级别的对齐。综合实验表明,该方法能够有效地提高目标检测器的跨域性能。

🔬 方法详解

问题定义:领域自适应目标检测旨在解决源域和目标域数据分布不一致的问题。现有方法,特别是基于CNN的方法,由于其局部感受野的限制,难以捕捉全局的领域不变特征。而基于Transformer的方法虽然可以捕捉全局信息,但计算复杂度高,难以实际部署。

核心思路:DA-Mamba的核心思路是结合CNN的局部特征提取能力和状态空间模型(SSM)的全局建模能力,构建一个混合架构。通过这种方式,既能高效地提取局部特征,又能捕捉长距离依赖关系,从而实现更好的领域自适应。

技术框架:DA-Mamba的整体架构包含一个CNN骨干网络和一个目标检测头,并在其中嵌入了两个关键模块:Image-Aware SSM (IA-SSM)和Object-Aware SSM (OA-SSM)。IA-SSM被集成到骨干网络中,用于增强图像级别的全局领域感知。OA-SSM被插入到检测头中,用于建模对象之间的空间和语义依赖关系。

关键创新:DA-Mamba的关键创新在于将状态空间模型(SSM)引入到领域自适应目标检测中,并设计了IA-SSM和OA-SSM两个模块,分别用于图像级别和对象级别的领域对齐。与传统的CNN或Transformer方法相比,DA-Mamba能够在计算效率和全局建模能力之间取得更好的平衡。

关键设计:IA-SSM的具体实现细节未知,但其目的是增强骨干网络对全局领域信息的感知。OA-SSM的具体实现细节也未知,但其目的是建模检测头中不同对象之间的关系,从而提升实例级别的对齐效果。论文中可能还包含关于损失函数、训练策略等方面的具体设计,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了DA-Mamba的有效性,但摘要中没有提供具体的性能数据和对比基线。可以推测,DA-Mamba在跨域目标检测任务上取得了显著的性能提升,并且在计算效率上优于基于Transformer的方法。具体的提升幅度和对比结果需要在论文正文中查找。

🎯 应用场景

DA-Mamba在自动驾驶、智能监控、遥感图像分析等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用DA-Mamba将模型从模拟环境迁移到真实道路场景,提高目标检测的准确性和鲁棒性。该研究有助于降低模型训练成本,加速AI技术在实际场景中的部署。

📄 摘要(原文)

Domain Adaptive Object Detection (DAOD) aims to transfer detectors from a labeled source domain to an unlabeled target domain. Existing DAOD methods employ multi-granularity feature alignment to learn domain-invariant representations. However, the local connectivity of their CNN-based backbone and detection head restricts alignment to local regions, failing to extract global domain-invariant features. Although transformer-based DAOD methods capture global dependencies via attention mechanisms, their quadratic computational cost hinders practical deployment. To solve this, we propose DA-Mamba, a hybrid CNN-State Space Models (SSMs) architecture that combines the efficiency of CNNs with the linear-time long-range modeling capability of State Space Models (SSMs) to capture both global and local domain-invariant features. Specifically, we introduce two novel modules: Image-Aware SSM (IA-SSM) and Object-Aware SSM (OA-SSM). IA-SSM is integrated into the backbone to enhance global domain awareness, enabling image-level global and local alignment. OA-SSM is inserted into the detection head to model spatial and semantic dependencies among objects, enhancing instance-level alignment. Comprehensive experiments demonstrate that the proposed method can efficiently improve the cross-domain performance of the object detector.