These Maps Are Made by Propagation: Adapting Deep Stereo Networks to Road Scenarios with Decisive Disparity Diffusion
作者: Chuang-Wei Liu, Yikang Zhang, Qijun Chen, Ioannis Pitas, Rui Fan
分类: cs.CV
发布日期: 2024-11-06
备注: 13 pages, 7 figures
💡 一句话要点
D3Stereo:利用决定性视差扩散,将深度立体匹配网络适配于道路场景
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 立体匹配 深度学习 道路场景 三维重建 视差估计
📋 核心要点
- 现有道路场景三维重建方法在计算效率和精度上仍有提升空间,且难以有效利用预训练深度模型。
- D3Stereo通过构建成本体积金字塔和递归双边滤波,并采用交替的决定性视差扩散策略,实现高效准确的视差估计。
- 在UDTIRI-Stereo和Stereo-Road数据集上的实验表明,D3Stereo优于其他道路表面三维重建算法,并在Middlebury数据集上验证了其通用性。
📝 摘要(中文)
本文提出了一种名为决定性视差扩散(D3Stereo)的方法,首次探索了密集深度特征匹配,旨在将预训练的深度卷积神经网络(DCNNs)应用于之前未见过的道路场景。该方法首先利用学习到的多层级特征表示构建成本体积金字塔。然后,采用一种新颖的递归双边滤波算法来聚合这些成本。D3Stereo的关键创新在于其交替的决定性视差扩散策略,其中尺度内扩散用于补全稀疏视差图,而尺度间继承为更高分辨率提供有价值的先验信息。在自建的UDTIRI-Stereo和Stereo-Road数据集上的大量实验表明,D3Stereo策略在适配预训练DCNN方面非常有效,并且与所有其他专门为道路表面3D重建设计的显式编程算法相比,具有卓越的性能。在ImageNet数据库上预训练的骨干DCNN在Middlebury数据集上的额外实验进一步验证了D3Stereo策略在解决一般立体匹配问题方面的通用性。
🔬 方法详解
问题定义:论文旨在解决道路场景下的三维重建问题,特别是如何有效地将预训练的深度卷积神经网络(DCNNs)应用于该场景。现有方法通常是针对特定场景设计的显式编程算法,难以利用大规模数据集上预训练的深度模型,且泛化能力有限。此外,计算效率和精度仍有提升空间。
核心思路:论文的核心思路是利用深度学习提取的特征进行立体匹配,并通过一种新颖的决定性视差扩散策略来提高匹配的准确性和效率。该策略通过在不同尺度上进行视差扩散,并利用尺度间的信息传递,从而实现更鲁棒的视差估计。这样设计的目的是为了充分利用预训练模型的特征提取能力,并克服道路场景中可能存在的遮挡、光照变化等问题。
技术框架:D3Stereo的整体框架包括以下几个主要阶段:1) 特征提取:使用预训练的DCNN提取左右图像的多层级特征表示。2) 成本体积构建:基于提取的特征,构建多尺度的成本体积金字塔。3) 成本聚合:采用递归双边滤波算法对成本体积进行聚合,以提高匹配的准确性。4) 视差扩散:通过交替的尺度内和尺度间视差扩散策略,完成稀疏视差图并传递先验信息。5) 视差优化:对最终的视差图进行优化,得到最终的三维重建结果。
关键创新:D3Stereo的关键创新在于其交替的决定性视差扩散策略。该策略通过在同一尺度内进行视差扩散,可以有效地补全稀疏的视差图,提高匹配的鲁棒性。同时,通过尺度间的信息传递,可以将低分辨率的视差信息作为先验知识,指导高分辨率的视差估计,从而提高匹配的准确性。这种交替扩散的策略是现有方法所没有的。
关键设计:在特征提取阶段,可以选择不同的预训练DCNN作为骨干网络。成本体积的构建方式可以采用不同的相似性度量方法,如互相关、L1距离等。递归双边滤波算法的具体参数,如滤波窗口大小、权重系数等,需要根据具体场景进行调整。在视差扩散阶段,需要设计合适的扩散规则和尺度间信息传递机制。损失函数的设计也至关重要,可以选择L1损失、Smooth L1损失等,并可以加入正则化项来约束视差图的平滑性。
🖼️ 关键图片
📊 实验亮点
D3Stereo在自建的UDTIRI-Stereo和Stereo-Road数据集上取得了显著的性能提升,超越了所有其他专门为道路表面3D重建设计的显式编程算法。此外,在Middlebury数据集上的实验也验证了D3Stereo在通用立体匹配问题上的有效性,表明其具有良好的泛化能力。
🎯 应用场景
D3Stereo在道路场景三维重建方面具有广泛的应用前景,例如自动驾驶、高精地图构建、智能交通管理等。通过精确地重建道路表面的三维结构,可以为自动驾驶车辆提供可靠的环境感知信息,提高行驶安全性。此外,该方法还可以用于道路维护和管理,例如检测路面破损、评估道路质量等。
📄 摘要(原文)
Stereo matching has emerged as a cost-effective solution for road surface 3D reconstruction, garnering significant attention towards improving both computational efficiency and accuracy. This article introduces decisive disparity diffusion (D3Stereo), marking the first exploration of dense deep feature matching that adapts pre-trained deep convolutional neural networks (DCNNs) to previously unseen road scenarios. A pyramid of cost volumes is initially created using various levels of learned representations. Subsequently, a novel recursive bilateral filtering algorithm is employed to aggregate these costs. A key innovation of D3Stereo lies in its alternating decisive disparity diffusion strategy, wherein intra-scale diffusion is employed to complete sparse disparity images, while inter-scale inheritance provides valuable prior information for higher resolutions. Extensive experiments conducted on our created UDTIRI-Stereo and Stereo-Road datasets underscore the effectiveness of D3Stereo strategy in adapting pre-trained DCNNs and its superior performance compared to all other explicit programming-based algorithms designed specifically for road surface 3D reconstruction. Additional experiments conducted on the Middlebury dataset with backbone DCNNs pre-trained on the ImageNet database further validate the versatility of D3Stereo strategy in tackling general stereo matching problems.