DEPTHOR++: Robust Depth Enhancement from a Real-World Lightweight dToF and RGB Guidance

📄 arXiv: 2509.26498v1 📥 PDF

作者: Jijun Xiang, Longliang Liu, Xuan Zhu, Xianqi Wang, Min Lin, Xin Yang

分类: cs.CV

发布日期: 2025-09-30

备注: 15 pages, 16 figures


💡 一句话要点

DEPTHOR++:提出一种鲁棒的深度增强框架,利用RGB引导增强真实世界轻量级dToF传感器的深度信息。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 深度增强 dToF传感器 深度补全 鲁棒性 异常检测

📋 核心要点

  1. 现有深度增强方法对dToF输入质量和RGB对齐要求高,忽略了真实场景中的噪声和误差,限制了应用。
  2. DEPTHOR++通过模拟真实噪声、异常检测和定制网络,增强了对噪声dToF输入的鲁棒性。
  3. 实验表明,DEPTHOR++在多个数据集上显著提升了深度补全性能,甚至超越了高端传感器。

📝 摘要(中文)

深度增强技术利用RGB图像引导,将原始dToF信号转换为稠密深度图,对于3D重建和SLAM等高精度任务至关重要。然而,现有方法通常假设理想的dToF输入和完美的dToF-RGB对齐,忽略了校准误差和异常值,限制了实际应用。本文系统地分析了真实世界轻量级dToF传感器的噪声特性,并提出了一种实用且新颖的深度补全框架DEPTHOR++,从三个关键方面增强了对噪声dToF输入的鲁棒性。首先,我们引入了一种基于合成数据集的模拟方法,生成逼真的训练样本,用于鲁棒模型训练。其次,我们提出了一种无需学习参数的异常检测机制,以识别和去除错误的dToF测量值,防止在补全过程中产生误导。第三,我们设计了一个针对噪声dToF输入的深度补全网络,该网络集成了RGB图像和预训练的单目深度估计先验,以改善在具有挑战性区域的深度恢复。在ZJU-L5数据集和真实世界样本上,我们的训练策略显著提升了现有深度补全模型,我们的模型实现了最先进的性能,RMSE和Rel平均提高了22%和11%。在Mirror3D-NYU数据集上,通过结合异常检测方法,我们的模型在镜像区域比之前的SOTA提高了37%。在Hammer数据集上,使用来自RealSense L515的模拟低成本dToF数据,我们的方法超过了L515的测量结果,平均增益为22%,证明了其使低成本传感器优于高端设备的潜力。各种真实世界数据集上的定性结果进一步验证了我们方法的有效性和泛化性。

🔬 方法详解

问题定义:论文旨在解决真实场景下,轻量级dToF传感器由于噪声、校准误差等问题导致的深度图质量差的问题。现有深度补全方法通常假设理想的dToF输入,忽略了真实dToF数据的噪声特性和dToF-RGB的未对准问题,导致在实际应用中性能下降。

核心思路:论文的核心思路是增强深度补全模型对噪声dToF输入的鲁棒性。具体来说,通过模拟真实噪声生成训练数据,设计异常检测机制去除错误测量,并构建专门针对噪声dToF输入的深度补全网络,从而提高深度估计的准确性和可靠性。

技术框架:DEPTHOR++框架主要包含三个阶段:1) 基于合成数据的噪声模拟,用于生成更真实的训练数据;2) 无参数的异常检测模块,用于识别和去除错误的dToF测量值;3) 深度补全网络,该网络融合了RGB图像和预训练的单目深度估计先验,以提高深度恢复的准确性。整个流程首先对输入的dToF数据进行异常检测,然后将处理后的dToF数据和RGB图像输入到深度补全网络中,最终输出增强后的深度图。

关键创新:论文的关键创新在于:1) 提出了一种基于合成数据的噪声模拟方法,能够生成更真实的dToF噪声数据,用于训练更鲁棒的模型;2) 设计了一种无需学习参数的异常检测机制,能够有效地识别和去除错误的dToF测量值,避免噪声传播;3) 构建了一个专门针对噪声dToF输入的深度补全网络,该网络融合了RGB图像和单目深度估计先验,能够更好地恢复深度信息。与现有方法相比,DEPTHOR++更注重解决真实dToF数据的噪声问题,从而提高了深度补全的实际应用价值。

关键设计:噪声模拟部分,论文详细描述了如何模拟dToF传感器的各种噪声类型,例如高斯噪声、椒盐噪声等,并根据真实传感器的噪声分布进行参数调整。异常检测模块,采用了一种基于统计的方法,通过计算dToF值的局部一致性来判断是否为异常值。深度补全网络,采用了编码器-解码器结构,编码器用于提取RGB图像和dToF数据的特征,解码器用于生成最终的深度图。损失函数方面,使用了深度回归损失和结构相似性损失,以保证深度估计的准确性和细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DEPTHOR++在ZJU-L5数据集上,RMSE和Rel指标平均提升了22%和11%,达到了SOTA水平。在Mirror3D-NYU数据集的镜像区域,性能提升了37%。在Hammer数据集上,使用模拟的低成本dToF数据,性能超越了RealSense L515的实测数据,平均增益为22%。这些结果表明,DEPTHOR++能够有效提升深度补全的性能,并使低成本传感器达到甚至超过高端传感器的性能。

🎯 应用场景

DEPTHOR++可应用于机器人导航、三维重建、增强现实等领域。通过提升低成本dToF传感器的深度感知能力,降低了相关应用的硬件成本,促进了这些技术在消费级产品中的普及。该研究还有助于提高自动驾驶系统对环境的感知能力,增强其安全性和可靠性。

📄 摘要(原文)

Depth enhancement, which converts raw dToF signals into dense depth maps using RGB guidance, is crucial for improving depth perception in high-precision tasks such as 3D reconstruction and SLAM. However, existing methods often assume ideal dToF inputs and perfect dToF-RGB alignment, overlooking calibration errors and anomalies, thus limiting real-world applicability. This work systematically analyzes the noise characteristics of real-world lightweight dToF sensors and proposes a practical and novel depth completion framework, DEPTHOR++, which enhances robustness to noisy dToF inputs from three key aspects. First, we introduce a simulation method based on synthetic datasets to generate realistic training samples for robust model training. Second, we propose a learnable-parameter-free anomaly detection mechanism to identify and remove erroneous dToF measurements, preventing misleading propagation during completion. Third, we design a depth completion network tailored to noisy dToF inputs, which integrates RGB images and pre-trained monocular depth estimation priors to improve depth recovery in challenging regions. On the ZJU-L5 dataset and real-world samples, our training strategy significantly boosts existing depth completion models, with our model achieving state-of-the-art performance, improving RMSE and Rel by 22% and 11% on average. On the Mirror3D-NYU dataset, by incorporating the anomaly detection method, our model improves upon the previous SOTA by 37% in mirror regions. On the Hammer dataset, using simulated low-cost dToF data from RealSense L515, our method surpasses the L515 measurements with an average gain of 22%, demonstrating its potential to enable low-cost sensors to outperform higher-end devices. Qualitative results across diverse real-world datasets further validate the effectiveness and generalizability of our approach.