Gaussian Mixture based Evidential Learning for Stereo Matching

📄 arXiv: 2408.02796v1 📥 PDF

作者: Weide Liu, Xingxing Wang, Lu Wang, Jun Cheng, Fayao Liu, Xulei Yang

分类: cs.CV

发布日期: 2024-08-05


💡 一句话要点

提出基于高斯混合模型的证据学习立体匹配方法,提升深度估计精度和跨域泛化能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 立体匹配 深度估计 高斯混合模型 证据学习 不确定性建模

📋 核心要点

  1. 现有证据深度学习立体匹配方法依赖单一高斯分布,难以准确建模真实图像分布,导致预测精度受限。
  2. 提出基于高斯混合模型的证据学习框架,假设图像数据服从混合高斯分布,更精确地建模像素级预测。
  3. 实验表明,该方法在Scene Flow、KITTI 2015和Middlebury 2014数据集上均优于基线方法,实现SOTA性能。

📝 摘要(中文)

本文提出了一种新颖的基于高斯混合模型的证据学习解决方案,用于鲁棒的立体匹配。与以往依赖于单一高斯分布的证据深度学习方法不同,我们的框架假设单个图像数据在立体匹配中服从混合高斯分布。这种假设能够产生更精确的像素级预测,并更准确地反映真实世界的图像分布。通过进一步采用逆伽马分布作为每个混合成分的中间先验,我们的概率模型相比于使用单一高斯分布的模型,实现了改进的深度估计,并有效地捕捉了模型的不确定性,从而实现了强大的跨域生成能力。我们通过使用Scene Flow数据集训练模型,并在KITTI 2015和Middlebury 2014上测试模型,评估了我们的立体匹配方法。实验结果一致表明,我们的方法以一种可信的方式改进了基线方法。值得注意的是,我们的方法在领域内验证数据和跨域数据集上都取得了新的最先进的结果,证明了其在立体匹配任务中的有效性和鲁棒性。

🔬 方法详解

问题定义:立体匹配旨在从左右图像中估计像素级的深度信息。现有基于证据学习的深度立体匹配方法通常假设像素特征服从单一高斯分布,然而,真实场景的图像数据往往更加复杂,单一高斯分布难以准确建模,导致深度估计精度受限,尤其是在光照变化、遮挡等情况下。

核心思路:本文的核心思路是将每个像素的特征表示为高斯混合模型(Gaussian Mixture Model, GMM),而非单一高斯分布。GMM能够更好地拟合复杂的数据分布,从而更准确地建模图像特征的不确定性。此外,引入证据学习框架,利用数据驱动的方式学习GMM的参数,提高模型的鲁棒性和泛化能力。

技术框架:该方法主要包含以下几个阶段:1) 特征提取:使用卷积神经网络(CNN)从左右图像中提取特征。2) 视差预测:基于提取的特征,预测每个像素的视差值。3) 证据学习:将每个像素的特征表示为GMM,并利用证据学习框架学习GMM的参数,包括均值、方差和混合权重。4) 深度估计:根据学习到的GMM参数,估计每个像素的深度值。

关键创新:该方法最重要的技术创新点在于使用高斯混合模型来表示像素特征,并结合证据学习框架进行参数学习。与传统的基于单一高斯分布的方法相比,GMM能够更好地建模图像特征的不确定性,从而提高深度估计的精度和鲁棒性。此外,使用逆伽马分布作为每个混合成分的中间先验,进一步提升了模型的不确定性建模能力。

关键设计:在网络结构方面,可以使用现有的立体匹配网络作为特征提取器和视差预测器。损失函数方面,可以采用基于证据理论的损失函数,例如Dirichlet损失或逆伽马损失,以鼓励模型学习到更准确的GMM参数。GMM的混合成分数量是一个重要的超参数,需要根据具体数据集进行调整。此外,逆伽马分布的参数也需要仔细设置,以保证模型的稳定性和收敛性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Scene Flow数据集上训练后,在KITTI 2015和Middlebury 2014数据集上均取得了state-of-the-art的结果。相较于基线方法,深度估计误差显著降低,尤其是在遮挡区域和弱纹理区域。该方法在跨域数据集上的表现也优于其他方法,证明了其具有更强的泛化能力。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建、虚拟现实等领域。更精确的深度估计能够提升自动驾驶系统的环境感知能力,提高机器人导航的安全性,并改善三维重建和虚拟现实的沉浸感。该方法具有较强的跨域泛化能力,有望在实际应用中取得更好的效果。

📄 摘要(原文)

In this paper, we introduce a novel Gaussian mixture based evidential learning solution for robust stereo matching. Diverging from previous evidential deep learning approaches that rely on a single Gaussian distribution, our framework posits that individual image data adheres to a mixture-of-Gaussian distribution in stereo matching. This assumption yields more precise pixel-level predictions and more accurately mirrors the real-world image distribution. By further employing the inverse-Gamma distribution as an intermediary prior for each mixture component, our probabilistic model achieves improved depth estimation compared to its counterpart with the single Gaussian and effectively captures the model uncertainty, which enables a strong cross-domain generation ability. We evaluated our method for stereo matching by training the model using the Scene Flow dataset and testing it on KITTI 2015 and Middlebury 2014. The experiment results consistently show that our method brings improvements over the baseline methods in a trustworthy manner. Notably, our approach achieved new state-of-the-art results on both the in-domain validated data and the cross-domain datasets, demonstrating its effectiveness and robustness in stereo matching tasks.