MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders

作者: Baijiong Lin, Weisen Jiang, Pengguang Chen, Shu Liu, Ying-Cong Chen

分类: cs.CV, cs.AI

发布日期: 2024-08-27 (更新: 2025-07-26)

备注: Accepted by IEEE Transactions on Pattern Analysis and Machine Intelligence

🔗 代码/项目: GITHUB

💡 一句话要点

MTMamba++：基于Mamba解码器的多任务密集场景理解框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 多任务学习 密集场景理解 Mamba架构 状态空间模型 跨任务交互 长程依赖 深度学习

📋 核心要点

多任务密集场景理解面临长程依赖建模和跨任务信息交互的挑战，现有方法难以兼顾性能与效率。
MTMamba++利用Mamba架构，通过自任务Mamba块处理长程依赖，跨任务Mamba块显式建模任务间交互。
实验表明，MTMamba++在多个数据集上超越了CNN、Transformer和扩散模型，同时保持了较高的计算效率。

📝 摘要（中文）

本文提出MTMamba++，一种用于多任务密集场景理解的新型架构，其特点是基于Mamba的解码器。多任务密集场景理解训练一个模型来处理多个密集预测任务，具有广泛的应用场景。捕获长程依赖关系和增强跨任务交互对于多任务密集预测至关重要。MTMamba++包含两种类型的核心块：自任务Mamba（STM）块和跨任务Mamba（CTM）块。STM利用状态空间模型处理长程依赖关系，而CTM显式地建模任务交互，以促进跨任务的信息交换。我们设计了两种类型的CTM块，即F-CTM和S-CTM，分别从特征和语义的角度增强跨任务交互。在NYUDv2、PASCAL-Context和Cityscapes数据集上的大量实验表明，MTMamba++优于基于CNN、基于Transformer和基于扩散的方法，同时保持了较高的计算效率。代码已在https://github.com/EnVision-Research/MTMamba上发布。

🔬 方法详解

问题定义：多任务密集场景理解旨在同时预测图像中多个像素级别的属性，例如语义分割、深度估计和表面法线预测。现有方法，如基于CNN和Transformer的模型，在捕获长程依赖关系和有效建模跨任务交互方面存在局限性，或者计算复杂度较高，难以满足实际应用的需求。

核心思路：MTMamba++的核心思路是利用Mamba架构的状态空间模型（SSM）来高效地捕获长程依赖关系，并设计专门的跨任务Mamba（CTM）块来显式地建模和增强不同任务之间的信息交互。通过结合自任务Mamba（STM）块和CTM块，MTMamba++能够在保持计算效率的同时，提升多任务场景理解的性能。

技术框架：MTMamba++的整体架构包含一个共享的编码器和一个基于Mamba的解码器。编码器负责提取输入图像的特征表示。解码器由多个STM块和CTM块交替堆叠而成。STM块处理单个任务内的长程依赖，而CTM块则促进不同任务之间的信息交换。最终，解码器的输出被用于预测每个任务的密集预测结果。

关键创新：MTMamba++的关键创新在于提出了基于Mamba的解码器，并设计了两种类型的CTM块：F-CTM和S-CTM。F-CTM从特征层面增强跨任务交互，而S-CTM从语义层面增强跨任务交互。与传统的卷积或Transformer方法相比，Mamba架构能够更高效地处理长程依赖关系，并且CTM块能够显式地建模任务之间的关系，从而提升多任务学习的性能。

关键设计：STM块采用标准的Mamba块结构，利用状态空间模型来建模序列数据。F-CTM块通过注意力机制来融合不同任务的特征表示。S-CTM块则利用语义分割的预测结果来引导跨任务的信息交换。损失函数通常是每个任务的损失函数的加权和，权重可以根据任务的重要性进行调整。具体的参数设置，如Mamba块的维度、CTM块的注意力头数等，需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

MTMamba++在NYUDv2、PASCAL-Context和Cityscapes数据集上取得了显著的性能提升。例如，在NYUDv2数据集上，MTMamba++在多个任务上超越了现有的CNN、Transformer和扩散模型。此外，MTMamba++还具有较高的计算效率，使其更适合于实际应用。

🎯 应用场景

MTMamba++在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。例如，在自动驾驶中，可以利用MTMamba++同时预测道路分割、交通标志检测和深度估计，从而提高环境感知能力。在机器人导航中，可以利用MTMamba++进行场景理解，帮助机器人更好地理解周围环境，从而实现更安全、更智能的导航。

📄 摘要（原文）

Multi-task dense scene understanding, which trains a model for multiple dense prediction tasks, has a wide range of application scenarios. Capturing long-range dependency and enhancing cross-task interactions are crucial to multi-task dense prediction. In this paper, we propose MTMamba++, a novel architecture for multi-task scene understanding featuring with a Mamba-based decoder. It contains two types of core blocks: self-task Mamba (STM) block and cross-task Mamba (CTM) block. STM handles long-range dependency by leveraging state-space models, while CTM explicitly models task interactions to facilitate information exchange across tasks. We design two types of CTM block, namely F-CTM and S-CTM, to enhance cross-task interaction from feature and semantic perspectives, respectively. Extensive experiments on NYUDv2, PASCAL-Context, and Cityscapes datasets demonstrate the superior performance of MTMamba++ over CNN-based, Transformer-based, and diffusion-based methods while maintaining high computational efficiency. The code is available at https://github.com/EnVision-Research/MTMamba.

MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理