HTMNet: A Hybrid Network with Transformer-Mamba Bottleneck Multimodal Fusion for Transparent and Reflective Objects Depth Completion

📄 arXiv: 2505.20904v2 📥 PDF

作者: Guanghu Xie, Yonglong Zhang, Zhiduo Jiang, Yang Liu, Zongwu Xie, Baoshi Cao, Hong Liu

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-05-28)


💡 一句话要点

HTMNet:用于透明和反射物体深度补全的Transformer-Mamba混合网络

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度补全 透明物体 反射物体 Transformer Mamba 多模态融合 机器人感知

📋 核心要点

  1. 深度传感器在透明和反射物体上获取深度信息时存在缺失,影响机器人感知和操作。
  2. HTMNet结合Transformer、CNN和Mamba架构,提出新颖的多模态和多尺度融合模块。
  3. 实验结果表明,HTMNet在多个数据集上实现了SOTA性能,验证了方法的有效性。

📝 摘要(中文)

本文提出了一种名为HTMNet的新型混合模型,用于解决透明和反射物体深度传感器获取深度信息不完整的问题,该问题严重影响下游机器人感知和操作任务。HTMNet集成了Transformer、CNN和Mamba架构。编码器基于双分支CNN-Transformer框架,瓶颈融合模块采用Transformer-Mamba架构,解码器则建立在多尺度融合模块之上。我们引入了一种基于自注意力机制和状态空间模型的新型多模态融合模块,首次将Mamba架构应用于透明物体深度补全领域,并揭示了其潜力。此外,我们为解码器设计了一个创新的多尺度融合模块,该模块结合了通道注意力、空间注意力和多尺度特征提取技术,通过下融合策略有效地整合多尺度特征。在多个公共数据集上的大量评估表明,我们的模型实现了最先进的(SOTA)性能,验证了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决透明和反射物体深度补全问题。现有方法难以准确获取此类物体的深度信息,导致机器人无法有效感知和操作这些物体。现有方法在处理复杂光照和材质变化时鲁棒性不足,容易产生深度估计误差。

核心思路:论文的核心思路是结合CNN提取局部特征、Transformer捕获全局依赖关系以及Mamba架构处理序列数据的优势,设计一个混合网络HTMNet。通过多模态融合和多尺度特征提取,提升模型对透明和反射物体的深度补全能力。

技术框架:HTMNet包含三个主要模块:编码器、瓶颈融合模块和解码器。编码器采用双分支CNN-Transformer结构,分别提取图像的局部和全局特征。瓶颈融合模块使用Transformer-Mamba架构,融合多模态特征。解码器采用多尺度融合模块,逐步恢复深度信息。

关键创新:论文的关键创新在于:1) 首次将Mamba架构应用于透明物体深度补全领域,利用其在序列建模方面的优势。2) 提出了一种基于自注意力机制和状态空间模型的新型多模态融合模块,有效融合不同模态的特征。3) 设计了一种创新的多尺度融合模块,结合通道注意力和空间注意力,自适应地融合多尺度特征。

关键设计:编码器中的CNN分支采用ResNet结构,Transformer分支采用标准的Transformer编码器。瓶颈融合模块中的Transformer-Mamba结构将Transformer的全局建模能力与Mamba的序列建模能力相结合。解码器中的多尺度融合模块采用下融合策略,逐步将高分辨率特征与低分辨率特征融合。损失函数采用L1损失和梯度损失的加权和。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HTMNet在多个公开数据集上取得了SOTA性能,证明了其有效性。具体而言,与现有最佳方法相比,HTMNet在透明物体深度补全任务上取得了显著的性能提升。实验结果表明,Mamba架构在处理透明物体深度补全问题上具有巨大潜力。

🎯 应用场景

该研究成果可应用于机器人抓取、自动驾驶、增强现实等领域。在机器人抓取中,可以帮助机器人准确识别和抓取透明或反射物体。在自动驾驶中,可以提高车辆对周围环境的感知能力,尤其是在雨天或夜晚等光照条件不佳的情况下。在增强现实中,可以更真实地渲染虚拟物体与真实环境的交互。

📄 摘要(原文)

Transparent and reflective objects pose significant challenges for depth sensors, resulting in incomplete depth information that adversely affects downstream robotic perception and manipulation tasks. To address this issue, we propose HTMNet, a novel hybrid model integrating Transformer, CNN, and Mamba architectures. The encoder is based on a dual-branch CNN-Transformer framework, the bottleneck fusion module adopts a Transformer-Mamba architecture, and the decoder is built upon a multi-scale fusion module. We introduce a novel multimodal fusion module grounded in self-attention mechanisms and state space models, marking the first application of the Mamba architecture in the field of transparent object depth completion and revealing its promising potential. Additionally, we design an innovative multi-scale fusion module for the decoder that combines channel attention, spatial attention, and multi-scale feature extraction techniques to effectively integrate multi-scale features through a down-fusion strategy. Extensive evaluations on multiple public datasets demonstrate that our model achieves state-of-the-art(SOTA) performance, validating the effectiveness of our approach.