URNet: Uncertainty-aware Refinement Network for Event-based Stereo Depth Estimation

📄 arXiv: 2509.18184v1 📥 PDF

作者: Yifeng Cheng, Alois Knoll, Hu Cao

分类: cs.CV

发布日期: 2025-09-18

备注: This work is accepted by Visual Intelligence Journal


💡 一句话要点

URNet:面向事件相机立体深度估计的、不确定性感知的优化网络

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 立体视觉 深度估计 不确定性建模 局部-全局优化

📋 核心要点

  1. 事件相机具有高时间分辨率、高动态范围和低延迟等优势,但在立体深度估计方面仍面临挑战。
  2. URNet通过局部-全局优化模块和基于KL散度的不确定性建模,提升深度估计的精度和可靠性。
  3. 在DSEC数据集上的实验结果表明,URNet在性能上超越了现有的最先进方法。

📝 摘要(中文)

本文提出了一种名为URNet的、不确定性感知的优化网络,用于基于事件相机的立体深度估计。该方法采用局部-全局优化模块,有效捕捉精细的局部细节和长程全局上下文信息。此外,引入了基于Kullback-Leibler (KL) 散度的不确定性建模方法,以提高预测的可靠性。在DSEC数据集上的大量实验表明,URNet在定性和定量评估中均优于最先进(SOTA)的方法。

🔬 方法详解

问题定义:事件相机在高速运动和高动态范围场景下具有优势,但如何有效利用事件流进行精确的立体深度估计仍然是一个挑战。现有方法通常难以同时捕捉局部细节和全局上下文信息,并且缺乏对预测不确定性的有效建模,导致深度估计精度和可靠性受限。

核心思路:URNet的核心思路是设计一个能够同时捕捉局部细节和全局上下文信息的优化网络,并引入不确定性建模来提高预测的可靠性。通过局部-全局优化模块,网络可以学习到更丰富的特征表示。利用KL散度进行不确定性建模,可以使网络能够识别和降低不可靠的预测。

技术框架:URNet的整体架构包含以下几个主要模块:1) 事件数据预处理模块,用于将原始事件流转换为适合网络处理的表示;2) 局部特征提取模块,用于提取局部精细特征;3) 全局上下文建模模块,用于捕捉长程依赖关系;4) 局部-全局优化模块,融合局部和全局特征,进行深度估计;5) 不确定性建模模块,基于KL散度估计预测的不确定性;6) 深度图生成模块,将网络输出转换为最终的深度图。

关键创新:URNet的关键创新在于以下两点:1) 提出了局部-全局优化模块,能够有效融合局部细节和全局上下文信息,从而提高深度估计的精度;2) 引入了基于KL散度的不确定性建模方法,能够提高预测的可靠性,并为后续应用提供置信度信息。

关键设计:局部-全局优化模块采用残差连接和注意力机制,以更好地融合局部和全局特征。KL散度用于衡量预测深度分布与真实深度分布之间的差异,并作为损失函数的一部分,引导网络学习预测不确定性。网络结构采用编码器-解码器架构,编码器用于提取特征,解码器用于生成深度图和不确定性估计。

📊 实验亮点

URNet在DSEC数据集上进行了广泛的实验,结果表明,URNet在深度估计精度方面显著优于现有的最先进方法。具体而言,URNet在多个指标上都取得了SOTA结果,例如在均方根误差(RMSE)和绝对相对误差(AbsRel)方面均有明显提升。此外,不确定性建模能够有效提高预测的可靠性,降低错误预测的概率。

🎯 应用场景

URNet在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。高精度和高可靠性的深度估计对于这些应用至关重要。例如,在自动驾驶中,URNet可以帮助车辆更好地感知周围环境,从而提高行驶安全性。在增强现实中,URNet可以用于构建更逼真的虚拟场景,提升用户体验。

📄 摘要(原文)

Event cameras provide high temporal resolution, high dynamic range, and low latency, offering significant advantages over conventional frame-based cameras. In this work, we introduce an uncertainty-aware refinement network called URNet for event-based stereo depth estimation. Our approach features a local-global refinement module that effectively captures fine-grained local details and long-range global context. Additionally, we introduce a Kullback-Leibler (KL) divergence-based uncertainty modeling method to enhance prediction reliability. Extensive experiments on the DSEC dataset demonstrate that URNet consistently outperforms state-of-the-art (SOTA) methods in both qualitative and quantitative evaluations.