RSGMamba: Reliability-Aware Self-Gated State Space Model for Multimodal Semantic Segmentation
作者: Guoan Xu, Yang Xiao, Guangwei Gao, Dongchen Zhu, Wenjing Jia, Guo-Jun Qi
分类: cs.CV
发布日期: 2026-04-14
备注: 7tables,9 figures
💡 一句话要点
提出RSGMamba,解决多模态语义分割中模态可靠性差异导致的特征退化问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 语义分割 状态空间模型 模态可靠性 自门控机制
📋 核心要点
- 现有跨模态语义分割方法忽略了不同模态的可靠性差异,导致噪声模态干扰特征融合,降低分割精度。
- RSGMamba通过可靠性感知自门控Mamba块(RSGMB)显式建模模态可靠性,动态调节跨模态交互,实现可靠特征选择。
- 实验表明,RSGMamba在多个数据集上取得了SOTA性能,例如在NYUDepth V2上mIoU达到58.8%,超越现有方法。
📝 摘要(中文)
多模态语义分割通过融合来自多种传感模态(如RGB、深度和热成像)的互补信息来增强场景理解。然而,现有的跨模态融合方法通常隐式地假设所有模态都同样可靠,这可能导致辅助模态存在噪声、未对齐或不完整时出现特征退化。本文从模态可靠性的角度重新审视跨模态融合,并提出了一种名为可靠性感知自门控状态空间模型(RSGMamba)的新框架。该方法的核心是可靠性感知自门控Mamba块(RSGMB),它显式地建模模态可靠性,并通过自门控机制动态地调节跨模态交互。与不加区分地在模态间交换信息的传统融合策略不同,RSGMB能够实现可靠性感知的特征选择和信息量大的特征聚合。此外,还引入了一个轻量级的局部跨门控调制(LCGM)来细化细粒度的空间细节,补充RSGMB的全局建模能力。大量实验表明,RSGMamba在RGB-D和RGB-T语义分割基准测试中均实现了最先进的性能,在NYUDepth V2和SUN-RGBD上分别达到58.8%/54.0%的mIoU(比之前最好的结果高出+0.4%/+0.7%),在MFNet和PST900上分别达到61.1%/88.9%的mIoU(最高提升+1.6%),且参数量仅为48.6M,从而验证了该方法的有效性和优越性。
🔬 方法详解
问题定义:多模态语义分割旨在融合来自不同传感器(如RGB、深度、热成像)的信息,以提升场景理解的准确性。然而,现有方法通常平等对待所有模态,忽略了模态之间可能存在的可靠性差异。当辅助模态包含噪声、未对齐或信息不完整时,直接融合会导致特征退化,降低分割性能。
核心思路:RSGMamba的核心思路是显式地建模每个模态的可靠性,并根据可靠性动态地调整跨模态融合的权重。通过自门控机制,模型能够选择性地利用可靠性高的模态信息,抑制噪声模态的干扰,从而提高融合特征的质量。
技术框架:RSGMamba的整体框架主要包含两个关键模块:可靠性感知自门控Mamba块(RSGMB)和局部跨门控调制(LCGM)。RSGMB负责全局的跨模态特征融合,通过自门控机制实现可靠性感知的特征选择和聚合。LCGM则用于细化局部空间细节,补充RSGMB的全局建模能力。整个网络以编码器-解码器结构为主,RSGMB被嵌入到编码器中,用于提取和融合多模态特征。
关键创新:RSGMamba最关键的创新在于RSGMB模块,它将Mamba状态空间模型与自门控机制相结合,实现了可靠性感知的跨模态特征融合。与传统的融合方法不同,RSGMB能够根据每个模态的可靠性动态地调整其在融合过程中的权重,从而避免了噪声模态的干扰。此外,RSGMamba还引入了LCGM模块,用于增强局部空间细节的表达能力。
关键设计:RSGMB模块的关键设计包括:1) 使用自注意力机制计算每个模态的可靠性权重;2) 使用Mamba状态空间模型进行序列建模,捕捉长距离依赖关系;3) 使用自门控机制根据可靠性权重动态地调整跨模态信息的流动。LCGM模块的关键设计包括:1) 使用跨模态注意力机制计算局部区域的权重;2) 使用门控机制控制局部信息的融合。
🖼️ 关键图片
📊 实验亮点
RSGMamba在多个多模态语义分割数据集上取得了显著的性能提升。在NYUDepth V2数据集上,mIoU达到58.8%,超过现有最佳方法0.4%。在SUN-RGBD数据集上,mIoU达到54.0%,超过现有最佳方法0.7%。在RGB-T数据集MFNet和PST900上分别达到61.1%/88.9%的mIoU,最高提升1.6%。同时,模型参数量仅为48.6M,表明了其高效性。
🎯 应用场景
RSGMamba在自动驾驶、机器人导航、医学图像分析等领域具有广泛的应用前景。例如,在自动驾驶中,可以融合RGB图像、激光雷达点云和毫米波雷达数据,提高恶劣天气条件下的感知能力。在医学图像分析中,可以融合CT图像和MRI图像,提高病灶检测的准确性。该研究有助于提升多模态信息融合的鲁棒性和准确性,推动相关领域的发展。
📄 摘要(原文)
Multimodal semantic segmentation has emerged as a powerful paradigm for enhancing scene understanding by leveraging complementary information from multiple sensing modalities (e.g., RGB, depth, and thermal). However, existing cross-modal fusion methods often implicitly assume that all modalities are equally reliable, which can lead to feature degradation when auxiliary modalities are noisy, misaligned, or incomplete. In this paper, we revisit cross-modal fusion from the perspective of modality reliability and propose a novel framework termed the Reliability-aware Self-Gated State Space Model (RSGMamba). At the core of our method is the Reliability-aware Self-Gated Mamba Block (RSGMB), which explicitly models modality reliability and dynamically regulates cross-modal interactions through a self-gating mechanism. Unlike conventional fusion strategies that indiscriminately exchange information across modalities, RSGMB enables reliability-aware feature selection and enhancing informative feature aggregation. In addition, a lightweight Local Cross-Gated Modulation (LCGM) is incorporated to refine fine-grained spatial details, complementing the global modeling capability of RSGMB. Extensive experiments demonstrate that RSGMamba achieves state-of-the-art performance on both RGB-D and RGB-T semantic segmentation benchmarks, resulting 58.8% / 54.0% mIoU on NYUDepth V2 and SUN-RGBD (+0.4% / +0.7% over prior best), and 61.1% / 88.9% mIoU on MFNet and PST900 (up to +1.6%), with only 48.6M parameters, thereby validating the effectiveness and superiority of the proposed approach.