USAM-Net: A U-Net-based Network for Improved Stereo Correspondence and Scene Depth Estimation using Features from a Pre-trained Image Segmentation network

📄 arXiv: 2503.14950v1 📥 PDF

作者: Joseph Emmanuel DL Dayo, Prospero C. Naval

分类: cs.CV, cs.AI

发布日期: 2025-03-19


💡 一句话要点

USAM-Net:融合预训练分割特征的U-Net立体匹配与深度估计网络

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 立体匹配 深度估计 语义分割 U-Net 注意力机制

📋 核心要点

  1. 现有深度估计方法难以有效利用多模态数据,尤其是在复杂场景中对目标边界和纹理特征的精确感知。
  2. USAM-Net通过双通路架构,将预训练分割模型的语义信息融入深度估计过程,增强模型对关键特征的关注。
  3. 在DrivingStereo数据集上,USAM-Net的GD和EPE指标均优于传统模型,验证了该方法在深度估计精度上的有效性。

📝 摘要(中文)

本文提出了一种名为统一分割注意力机制网络(USAM-Net)的新型卷积神经网络,旨在通过整合立体图像输入、语义分割图和注意力机制来提升深度估计性能,满足自动驾驶和增强现实应用中对高精度深度估计日益增长的需求。USAM-Net采用双通路架构,结合了预训练分割模型(SAM)和深度估计模型。分割通路预处理立体图像以生成语义掩码,然后将其与立体图像连接,作为深度估计通路的输入。这种集成使模型能够关注重要的特征,如对象边界和表面纹理,这对于准确的深度感知至关重要。在DrivingStereo数据集上的实验评估表明,USAM-Net实现了卓越的性能指标,包括3.61%的全局差异(GD)和0.88的端点误差(EPE),优于CFNet、SegStereo和iResNet等传统模型。这些结果突显了将分割信息集成到立体深度估计任务中的有效性,并强调了USAM-Net在需要高精度深度数据的应用中的潜力。

🔬 方法详解

问题定义:论文旨在解决立体视觉深度估计问题,现有方法在复杂场景下,难以充分利用图像中的语义信息,导致深度估计精度不高,尤其是在目标边界和纹理细节方面表现不足。

核心思路:论文的核心思路是将预训练的图像分割模型提取的语义信息融入到深度估计网络中,利用语义信息引导网络关注图像中重要的特征区域,从而提高深度估计的准确性。通过结合语义分割和立体匹配,模型能够更好地理解场景,并更精确地估计深度。

技术框架:USAM-Net采用双通路架构。第一条通路是预训练的图像分割模型(SAM),用于从立体图像中提取语义分割图。第二条通路是深度估计模型,它将立体图像和语义分割图连接起来作为输入,进行深度估计。深度估计通路基于U-Net结构,通过编码器-解码器结构学习深度信息。

关键创新:该方法最关键的创新点在于将预训练的图像分割模型与深度估计网络相结合,利用语义信息来指导深度估计过程。这种结合方式使得模型能够更好地理解场景,并更精确地估计深度。与现有方法相比,USAM-Net能够更有效地利用图像中的语义信息,从而提高深度估计的准确性。

关键设计:USAM-Net的关键设计包括:1) 使用预训练的图像分割模型(SAM)提取语义信息;2) 将语义分割图与立体图像连接作为深度估计网络的输入;3) 采用U-Net结构作为深度估计网络的基础架构;4) 使用合适的损失函数来训练深度估计网络,例如L1损失或Smooth L1损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

USAM-Net在DrivingStereo数据集上取得了显著的性能提升,全局差异(GD)降低至3.61%,端点误差(EPE)降低至0.88。相较于CFNet、SegStereo和iResNet等基线模型,USAM-Net在深度估计精度上表现出明显的优势,验证了融合语义分割信息对提升深度估计性能的有效性。

🎯 应用场景

USAM-Net在自动驾驶领域具有广阔的应用前景,可用于提高车辆对周围环境的感知能力,从而提升驾驶安全性。此外,该方法还可应用于增强现实、机器人导航、三维重建等领域,为这些应用提供更精确的深度信息,从而提升用户体验和系统性能。未来,该研究有望推动深度感知技术的发展,并为相关产业带来创新。

📄 摘要(原文)

The increasing demand for high-accuracy depth estimation in autonomous driving and augmented reality applications necessitates advanced neural architectures capable of effectively leveraging multiple data modalities. In this context, we introduce the Unified Segmentation Attention Mechanism Network (USAM-Net), a novel convolutional neural network that integrates stereo image inputs with semantic segmentation maps and attention to enhance depth estimation performance. USAM-Net employs a dual-pathway architecture, which combines a pre-trained segmentation model (SAM) and a depth estimation model. The segmentation pathway preprocesses the stereo images to generate semantic masks, which are then concatenated with the stereo images as inputs to the depth estimation pathway. This integration allows the model to focus on important features such as object boundaries and surface textures which are crucial for accurate depth perception. Empirical evaluation on the DrivingStereo dataset demonstrates that USAM-Net achieves superior performance metrics, including a Global Difference (GD) of 3.61\% and an End-Point Error (EPE) of 0.88, outperforming traditional models such as CFNet, SegStereo, and iResNet. These results underscore the effectiveness of integrating segmentation information into stereo depth estimation tasks, highlighting the potential of USAM-Net in applications demanding high-precision depth data.