DA-Mamba: Learning Domain-Aware State Space Model for Global-Local Alignment in Domain Adaptive Object Detection

作者: Haochen Li, Rui Zhang, Hantao Yao, Xin Zhang, Yifan Hao, Shaohui Peng, Yongwei Zhao, Ling Li

分类: cs.CV

发布日期: 2026-03-19

备注: Accepted by CVPR 2026

💡 一句话要点

提出DA-Mamba，利用领域感知状态空间模型实现领域自适应目标检测中的全局-局部对齐。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 领域自适应目标检测 状态空间模型 全局-局部对齐 跨域学习 深度学习

📋 核心要点

现有DAOD方法依赖CNN，其局部连接性限制了全局领域不变特征的提取，而Transformer计算成本高昂。
DA-Mamba结合CNN和SSM，利用SSM的线性时间长程建模能力，同时捕获全局和局部领域不变特征。
实验结果表明，DA-Mamba能够有效提升目标检测器在跨域场景下的性能表现。

📝 摘要（中文）

领域自适应目标检测(DAOD)旨在将检测器从带标签的源域迁移到无标签的目标域。现有的DAOD方法采用多粒度特征对齐来学习领域不变的表示。然而，基于CNN的骨干网络和检测头的局部连接性限制了对局部区域的对齐，无法提取全局领域不变特征。虽然基于Transformer的DAOD方法通过注意力机制捕获全局依赖关系，但其二次计算成本阻碍了实际部署。为了解决这个问题，我们提出了DA-Mamba，一种混合CNN-状态空间模型(SSM)架构，它结合了CNN的效率和SSM的线性时间长程建模能力，以捕获全局和局部领域不变特征。具体来说，我们引入了两个新的模块：图像感知SSM (IA-SSM)和对象感知SSM (OA-SSM)。IA-SSM集成到骨干网络中，以增强全局领域感知，实现图像级别的全局和局部对齐。OA-SSM插入到检测头中，以建模对象之间的空间和语义依赖关系，增强实例级别的对齐。综合实验表明，该方法能够有效地提高目标检测器的跨域性能。

🔬 方法详解

问题定义：领域自适应目标检测旨在解决源域和目标域数据分布不一致的问题。现有方法，特别是基于CNN的方法，由于其局部感受野的限制，难以捕捉全局的领域不变特征。而基于Transformer的方法虽然可以捕捉全局信息，但计算复杂度高，难以实际部署。

核心思路：DA-Mamba的核心思路是结合CNN的局部特征提取能力和状态空间模型（SSM）的全局建模能力，构建一个混合架构。通过这种方式，既能高效地提取局部特征，又能捕捉长距离依赖关系，从而实现更好的领域自适应。

技术框架：DA-Mamba的整体架构包含一个CNN骨干网络和一个目标检测头，并在其中嵌入了两个关键模块：Image-Aware SSM (IA-SSM)和Object-Aware SSM (OA-SSM)。IA-SSM被集成到骨干网络中，用于增强图像级别的全局领域感知。OA-SSM被插入到检测头中，用于建模对象之间的空间和语义依赖关系。

关键创新：DA-Mamba的关键创新在于将状态空间模型（SSM）引入到领域自适应目标检测中，并设计了IA-SSM和OA-SSM两个模块，分别用于图像级别和对象级别的领域对齐。与传统的CNN或Transformer方法相比，DA-Mamba能够在计算效率和全局建模能力之间取得更好的平衡。

关键设计：IA-SSM的具体实现细节未知，但其目的是增强骨干网络对全局领域信息的感知。OA-SSM的具体实现细节也未知，但其目的是建模检测头中不同对象之间的关系，从而提升实例级别的对齐效果。论文中可能还包含关于损失函数、训练策略等方面的具体设计，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了DA-Mamba的有效性，但摘要中没有提供具体的性能数据和对比基线。可以推测，DA-Mamba在跨域目标检测任务上取得了显著的性能提升，并且在计算效率上优于基于Transformer的方法。具体的提升幅度和对比结果需要在论文正文中查找。

🎯 应用场景

DA-Mamba在自动驾驶、智能监控、遥感图像分析等领域具有广泛的应用前景。例如，在自动驾驶中，可以利用DA-Mamba将模型从模拟环境迁移到真实道路场景，提高目标检测的准确性和鲁棒性。该研究有助于降低模型训练成本，加速AI技术在实际场景中的部署。

📄 摘要（原文）

Domain Adaptive Object Detection (DAOD) aims to transfer detectors from a labeled source domain to an unlabeled target domain. Existing DAOD methods employ multi-granularity feature alignment to learn domain-invariant representations. However, the local connectivity of their CNN-based backbone and detection head restricts alignment to local regions, failing to extract global domain-invariant features. Although transformer-based DAOD methods capture global dependencies via attention mechanisms, their quadratic computational cost hinders practical deployment. To solve this, we propose DA-Mamba, a hybrid CNN-State Space Models (SSMs) architecture that combines the efficiency of CNNs with the linear-time long-range modeling capability of State Space Models (SSMs) to capture both global and local domain-invariant features. Specifically, we introduce two novel modules: Image-Aware SSM (IA-SSM) and Object-Aware SSM (OA-SSM). IA-SSM is integrated into the backbone to enhance global domain awareness, enabling image-level global and local alignment. OA-SSM is inserted into the detection head to model spatial and semantic dependencies among objects, enhancing instance-level alignment. Comprehensive experiments demonstrate that the proposed method can efficiently improve the cross-domain performance of the object detector.

DA-Mamba: Learning Domain-Aware State Space Model for Global-Local Alignment in Domain Adaptive Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理