Neuromorphic Monocular Depth Estimation with Uncertainty Modeling

📄 arXiv: 2605.10675v1 📥 PDF

作者: Viktor Bergkvist, Felix Rydell, Per-Erik Forssén, David Gustafsson, Johan Rideg

分类: cs.CV

发布日期: 2026-05-11


💡 一句话要点

提出基于神经形态视觉的单目深度估计方法,通过不确定性建模提升深度预测可靠性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经形态视觉 事件相机 单目深度估计 不确定性建模 证据学习 深度学习 计算机视觉

📋 核心要点

  1. 针对事件相机数据稀疏且噪声敏感的特性,传统单目深度估计难以在复杂动态场景下实现高精度的像素级深度推断。
  2. 提出基于U-Net的深度学习框架,通过集成高斯、对数正态及证据学习等不确定性建模方法,量化深度预测的置信度。
  3. 实验表明,通过优化事件表示(如10分箱与证据学习结合)可显著提升深度估计的鲁棒性,并有效识别预测结果的可靠区域。

📝 摘要(中文)

事件相机凭借微秒级时间分辨率、高动态范围及低带宽占用等优势,在视觉感知领域展现出巨大潜力。本文提出利用深度神经网络从单目事件流中预测像素级深度分布。研究引入高斯分布、对数正态分布及证据学习框架进行不确定性建模,并系统评估了六种事件表示方法,包括不同时间分箱的时空体素网格、紧凑时空表示(CSTR)及时间排序近期事件(TORE)体素。模型采用U-Net架构,在合成数据上预训练后在真实序列上进行微调。实验结果表明,不同表示方法性能相近,其中10分箱对数正态分布与5分箱证据学习模型表现最优。研究证明了不确定性估计可有效集成至事件驱动的深度估计中,并能精准识别深度预测的可靠像素。

🔬 方法详解

问题定义:论文旨在解决事件相机在单目深度估计中面临的噪声干扰与数据稀疏性问题,特别是如何量化预测深度的不确定性,以区分可靠与不可靠的深度估计结果。

核心思路:引入概率建模与证据学习框架,将传统的确定性深度回归转化为分布预测。通过对比多种事件表示方法,寻找最适合神经网络处理事件流特征的输入格式,从而提升模型对动态场景的感知能力。

技术框架:整体采用U-Net编码器-解码器架构。输入端将异步事件流转化为结构化的时空体素或特定表示(如TORE),经过特征提取后,输出层不再仅预测深度值,而是预测深度分布的参数(如均值与方差或证据参数)。

关键创新:首次系统性地将多种不确定性建模方法(高斯、对数正态、证据学习)应用于事件驱动的深度估计,并对比了六种主流事件表示方法,为神经形态视觉任务的输入设计提供了量化参考。

关键设计:模型在合成数据集上进行大规模预训练以学习深度先验,随后在真实场景序列上进行微调。损失函数根据所选分布类型进行设计,例如使用负对数似然损失(NLL)来优化概率分布参数,确保模型不仅能预测深度,还能准确评估预测的置信度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验通过绝对相对误差(Abs Rel)、均方根误差(RMSE)及稀疏化误差曲线下面积(AU-SE)进行评估。结果显示,10分箱对数正态模型与5分箱证据学习模型在各项指标上均达到最优。研究证实了不确定性估计不仅能提升整体精度,还能有效过滤低置信度像素,为后续的决策系统提供可靠的深度置信度图。

🎯 应用场景

该研究在自动驾驶、无人机避障及机器人导航领域具有重要价值。由于事件相机在高速运动和极端光照条件下表现优异,结合不确定性建模的深度估计技术,能为机器人提供更可靠的实时环境感知,特别是在需要高动态响应和安全冗余的复杂作业环境中。

📄 摘要(原文)

Event cameras offer distinct advantages over conventional frame-based sensors, including microsecond-level temporal resolution, high dynamic range, and low bandwidth. In this paper, we predict per-pixel depth distributions from monocular event streams using deep neural networks. We estimate uncertainty using Gaussian, log-normal, and evidential learning frameworks. We compare six event representations: spatio-temporal voxel grids with 1, 5, 10, and 20 temporal bins, the Compact Spatio-Temporal Representation (CSTR), and Time-Ordered Recent Event (TORE) volumes. Our U-Net-based models are trained on synthetic data and then fine-tuned on real sequences. We evaluate performance using absolute relative error, root mean squared error, and the area under the sparsification error. Quantitative results show that the representations perform similarly, while 10 bin log-normal and 5 bin evidential learning perform best across metrics. Our experiments demonstrate that uncertainty estimation can be successfully integrated into event-based monocular depth estimation, and be used to indicate pixels with reliable depth.