Interactive State Space Model with Cross-Modal Local Scanning for Depth Super-Resolution
作者: Chen Wu, Ling Wang, Zhuoran Zheng, Xiangyu Chen, Jingyuan Xia, Weidong Jiang, Jiantao Zhou
分类: cs.CV
发布日期: 2026-05-12
备注: ISCAS2026
💡 一句话要点
提出基于交互状态空间模型的跨模态局部扫描深度超分辨率方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度超分辨率 跨模态学习 状态空间模型 Mamba架构 局部扫描 RGB-D 语义交互
📋 核心要点
- 现有深度超分辨率方法难以高效建立RGB和深度图之间具有语义交互的联合表示。
- 提出交互状态空间模型,通过跨模态局部扫描机制实现细粒度语义交互,并利用Mamba架构实现线性复杂度的全局建模。
- 实验结果表明,该方法在深度超分辨率任务上取得了与现有最佳方法相当的性能。
📝 摘要(中文)
本论文提出了一种基于交互状态空间模型(Interactive State Space Model)的深度超分辨率(GDSR)框架,旨在利用高分辨率RGB图像引导低分辨率深度图重建。现有方法或独立建模各模态信息,或依赖计算复杂度高的注意力机制,难以建立高效且具有语义交互的联合表示。本文观察到不同模态的特征图在特征提取过程中存在语义相关性,因此设计了一种更灵活的方法,实现模态间密集且具有语义感知的深度交互。该框架采用跨模态局部扫描机制,实现RGB和深度特征之间的细粒度语义交互。借助Mamba架构,该框架实现了线性复杂度的全局建模。此外,引入跨模态匹配变换模块,利用来自两种模态的代表性特征来增强交互建模质量。大量实验表明,该方法在性能上与最先进的方法相比具有竞争力。
🔬 方法详解
问题定义:论文旨在解决有引导的深度超分辨率(GDSR)问题,即利用高分辨率RGB图像作为引导,从低分辨率深度图重建出高分辨率深度图。现有方法的痛点在于,要么独立处理RGB和深度信息,忽略了模态间的交互;要么使用计算复杂度高的注意力机制,导致计算效率低下,难以应用于大规模场景。
核心思路:论文的核心思路是观察到RGB和深度特征在提取过程中存在语义相关性,因此提出一种能够实现密集且具有语义感知的跨模态交互的方法。通过设计跨模态局部扫描机制,使得RGB和深度特征能够进行细粒度的语义交互,从而更好地融合两种模态的信息。
技术框架:整体框架主要包含以下几个模块:1) 特征提取模块,分别提取RGB和深度图像的特征;2) 跨模态局部扫描模块,利用Mamba架构进行全局建模,并实现RGB和深度特征的细粒度语义交互;3) 跨模态匹配变换模块,用于增强交互建模质量;4) 上采样模块,将低分辨率深度特征图恢复到高分辨率。
关键创新:论文最重要的创新点在于提出了跨模态局部扫描机制,它能够实现RGB和深度特征之间的细粒度语义交互,并且利用Mamba架构实现了线性复杂度的全局建模,克服了传统注意力机制计算复杂度高的缺点。与现有方法的本质区别在于,该方法能够更有效地融合RGB和深度信息,并且具有更高的计算效率。
关键设计:跨模态局部扫描模块是关键设计之一,它通过局部扫描的方式,将RGB和深度特征进行交互,从而捕捉到细粒度的语义信息。Mamba架构的使用保证了全局建模的能力,同时避免了注意力机制的二次方复杂度。跨模态匹配变换模块通过学习两种模态的代表性特征,进一步增强了交互建模的质量。具体的参数设置和损失函数等细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了所提出方法的有效性。实验结果表明,该方法在深度超分辨率任务上取得了与现有最先进方法相当甚至更好的性能。具体的性能数据和对比基线在论文中进行了详细的展示(未知)。该方法在计算效率方面也具有优势,这得益于Mamba架构的使用。
🎯 应用场景
该研究成果可应用于多种场景,例如:机器人导航、自动驾驶、三维重建、虚拟现实/增强现实等。通过提升深度图的分辨率,可以提高这些应用对环境的感知能力,从而提升系统的性能和鲁棒性。未来,该方法有望在资源受限的移动设备上实现高性能的深度感知。
📄 摘要(原文)
Guided depth super-resolution (GDSR) reconstructs HR depth maps from LR inputs with HR RGB guidance. Existing methods either model each modality independently or rely on computationally expensive attention mechanisms with quadratic complexity, hindering the establishment of efficient and semantically interactive joint representations. In this paper, we observe that feature maps from different modalities exhibit semantic-level correlations during feature extraction. This motivates us to develop a more flexible approach enabling dense, semantically-aware deep interactions between modalities. To this end, we propose a novel GDSR framework centered around the Interactive State Space Model. Specifically, we design a cross-modal local scanning mechanism that enables fine-grained semantic interactions between RGB and depth features. Leveraging the Mamba architecture, our framework achieves global modeling with linear complexity. Furthermore, a cross-modal matching transform module is introduced to enhance interactive modeling quality by utilizing representative features from both modalities. Extensive experiments demonstrate competitive performance against state-of-the-art methods.