StereoMamba: Real-time and Robust Intraoperative Stereo Disparity Estimation via Long-range Spatial Dependencies
作者: Xu Wang, Jialang Xu, Shuai Zhang, Baoru Huang, Danail Stoyanov, Evangelos B. Mazomenos
分类: cs.CV, cs.AI
发布日期: 2025-04-24
💡 一句话要点
StereoMamba:面向机器人辅助微创手术的实时鲁棒立体视觉视差估计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 立体视觉 视差估计 机器人辅助微创手术 长程依赖 Mamba 多尺度特征融合 实时性 零样本泛化
📋 核心要点
- 现有深度学习立体视觉方法在RAMIS中难以兼顾精度、鲁棒性和推理速度,限制了其在手术中的应用。
- StereoMamba通过FE-Mamba模块增强长程空间依赖,并利用MFF模块融合多尺度特征,提升视差估计的准确性和鲁棒性。
- 在SCARED数据集上,StereoMamba在精度和速度上取得了平衡,并在RIS2017和StereoMIS数据集上展现出良好的泛化能力。
📝 摘要(中文)
本文提出StereoMamba架构,专为机器人辅助微创手术(RAMIS)中的立体视差估计而设计。该方法基于一种新颖的特征提取Mamba (FE-Mamba)模块,增强了立体图像内部和之间的长程空间依赖性。为了有效地整合来自FE-Mamba的多尺度特征,引入了一种新的多维特征融合(MFF)模块。在离体SCARED基准测试中,StereoMamba在EPE上实现了2.64像素,深度MAE为2.55毫米,在Bad2上实现了41.49%,Bad3上实现了26.99%的次优性能,同时保持了21.28 FPS的推理速度(针对1280*1024的高分辨率图像对),在准确性、鲁棒性和效率之间取得了最佳平衡。此外,通过比较使用生成的视差图对左图像进行扭曲合成的右图像与实际右图像,StereoMamba在平均SSIM(0.8970)和PSNR(16.0761)方面表现最佳,在体内RIS2017和StereoMIS数据集上表现出强大的零样本泛化能力。
🔬 方法详解
问题定义:论文旨在解决机器人辅助微创手术(RAMIS)中立体视觉视差估计的问题。现有深度学习方法难以在精度、鲁棒性和推理速度之间取得平衡。具体来说,手术场景复杂,图像质量受限,需要算法既能准确估计深度信息,又能快速响应,同时对噪声和遮挡具有鲁棒性。
核心思路:论文的核心思路是利用Mamba架构的长程依赖建模能力,增强立体图像内部和之间的空间关系,从而提高视差估计的准确性和鲁棒性。同时,通过多维特征融合模块,有效整合不同尺度的特征信息,提升算法的整体性能。这种设计旨在克服传统卷积神经网络在处理长程依赖和多尺度信息方面的局限性。
技术框架:StereoMamba的整体架构包含以下几个主要模块:1) 特征提取模块:使用FE-Mamba模块提取左右图像的特征,增强长程空间依赖。2) 特征融合模块:使用MFF模块融合来自FE-Mamba的多尺度特征。3) 视差回归模块:利用融合后的特征回归视差图。整个流程是端到端的,输入左右图像,输出视差图。
关键创新:论文最重要的技术创新点在于FE-Mamba模块和MFF模块的设计。FE-Mamba模块利用Mamba架构的序列建模能力,捕捉图像中的长程空间依赖,克服了传统卷积神经网络的感受野限制。MFF模块则通过多维度的特征融合,有效整合了来自不同尺度的特征信息,提升了算法的整体性能。与现有方法相比,StereoMamba在长程依赖建模和多尺度特征融合方面具有优势。
关键设计:FE-Mamba模块的关键设计在于将Mamba架构应用于特征提取,通过选择性状态空间模型(Selective State Space Model, S6)建模长程依赖。MFF模块的关键设计在于采用多维度的融合策略,例如通道维度和空间维度,以更有效地整合多尺度特征。损失函数方面,论文可能采用了常用的L1损失或Smooth L1损失,用于衡量预测视差与真实视差之间的差异。具体的网络结构细节(如Mamba块的数量、通道数等)未知。
🖼️ 关键图片
📊 实验亮点
StereoMamba在SCARED数据集上取得了优异的性能,EPE为2.64像素,深度MAE为2.55毫米,在Bad2和Bad3指标上表现接近最优。更重要的是,StereoMamba在保持高精度的同时,实现了21.28 FPS的推理速度,优于许多现有方法。此外,StereoMamba在RIS2017和StereoMIS数据集上展现出强大的零样本泛化能力,SSIM达到0.8970,PSNR达到16.0761,表明其具有良好的鲁棒性和适应性。
🎯 应用场景
StereoMamba在机器人辅助微创手术中具有重要的应用价值。它可以为医生提供实时的深度信息,辅助手术操作,提高手术精度和安全性。此外,该方法还可以应用于其他需要立体视觉的场景,如自动驾驶、三维重建等。未来,可以进一步研究如何将StereoMamba与其他模态的信息融合,例如内窥镜图像的语义信息,以提升算法的性能和鲁棒性。
📄 摘要(原文)
Stereo disparity estimation is crucial for obtaining depth information in robot-assisted minimally invasive surgery (RAMIS). While current deep learning methods have made significant advancements, challenges remain in achieving an optimal balance between accuracy, robustness, and inference speed. To address these challenges, we propose the StereoMamba architecture, which is specifically designed for stereo disparity estimation in RAMIS. Our approach is based on a novel Feature Extraction Mamba (FE-Mamba) module, which enhances long-range spatial dependencies both within and across stereo images. To effectively integrate multi-scale features from FE-Mamba, we then introduce a novel Multidimensional Feature Fusion (MFF) module. Experiments against the state-of-the-art on the ex-vivo SCARED benchmark demonstrate that StereoMamba achieves superior performance on EPE of 2.64 px and depth MAE of 2.55 mm, the second-best performance on Bad2 of 41.49% and Bad3 of 26.99%, while maintaining an inference speed of 21.28 FPS for a pair of high-resolution images (1280*1024), striking the optimum balance between accuracy, robustness, and efficiency. Furthermore, by comparing synthesized right images, generated from warping left images using the generated disparity maps, with the actual right image, StereoMamba achieves the best average SSIM (0.8970) and PSNR (16.0761), exhibiting strong zero-shot generalization on the in-vivo RIS2017 and StereoMIS datasets.