UniTT-Stereo: Unified Training of Transformer for Enhanced Stereo Matching

📄 arXiv: 2409.02545v1 📥 PDF

作者: Soomin Kim, Hyesong Choi, Jihye Ahn, Dongbo Min

分类: cs.CV

发布日期: 2024-09-04


💡 一句话要点

UniTT-Stereo:统一训练Transformer以增强立体匹配性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 立体匹配 Transformer 自监督学习 深度估计 局部归纳偏置 统一训练 跨视图对应 深度学习

📋 核心要点

  1. 立体匹配领域Transformer应用受限,主要原因是真实场景ground truth数据匮乏,限制了模型性能。
  2. UniTT-Stereo通过统一自监督预训练和监督立体匹配,提升Transformer在立体匹配中的潜力。
  3. 实验表明,UniTT-Stereo在ETH3D、KITTI等数据集上取得了SOTA性能,验证了方法的有效性。

📝 摘要(中文)

与Transformer在其他视觉任务中日益普及不同,基于卷积的方法仍然主导着立体深度估计。这主要是由于立体匹配的真实世界ground truth数据有限,这限制了基于Transformer的立体方法性能的提升。本文提出了UniTT-Stereo,一种通过统一自监督预训练和基于监督学习的立体匹配框架来最大化基于Transformer的立体架构潜力的方法。具体来说,我们探索了在输入图像中重建被mask部分特征,同时从局部归纳偏置的角度预测另一幅图像中对应点的有效性,这对于在有限训练数据下训练模型至关重要。此外,为了解决重建和预测这些具有挑战性的任务,我们提出了一种新的策略,即在使用立体定制损失训练立体模型时改变mask比例。UniTT-Stereo的最先进性能已在ETH3D、KITTI 2012和KITTI 2015等各种基准数据集上得到验证。最后,为了研究该方法的优势,我们提供了特征图的频率分析和基于注意力图的局部归纳偏置分析。

🔬 方法详解

问题定义:立体匹配任务旨在从一对校正后的图像中估计每个像素的深度或视差。现有基于卷积的方法虽然取得了不错的成果,但Transformer在其他视觉任务中的成功表明其具有更大的潜力。然而,立体匹配任务缺乏大规模的真实标注数据,这限制了基于Transformer的立体匹配模型的训练和泛化能力。

核心思路:UniTT-Stereo的核心思路是利用自监督学习来弥补立体匹配任务中真实标注数据的不足。通过在预训练阶段引入mask图像重建和跨视图对应点预测任务,使模型学习到图像的局部特征和跨视图的几何关系,从而提高模型在真实立体匹配任务中的性能。这种统一的训练方式能够有效利用无标签数据,提升模型的泛化能力。

技术框架:UniTT-Stereo的整体框架包含预训练和微调两个阶段。在预训练阶段,模型通过mask图像重建和跨视图对应点预测任务进行自监督学习。在微调阶段,模型使用立体匹配损失函数在有标签数据上进行微调,以适应特定的立体匹配任务。该框架采用Transformer作为核心特征提取器,并结合立体匹配任务的特点进行优化。

关键创新:UniTT-Stereo的关键创新在于统一了自监督学习和监督学习,并针对立体匹配任务设计了mask比例调整策略。传统的自监督学习方法通常采用固定的mask比例,而UniTT-Stereo根据立体匹配任务的特点,动态调整mask比例,以更好地学习图像的局部特征和跨视图的几何关系。此外,该方法还引入了跨视图对应点预测任务,进一步增强了模型对立体几何的理解。

关键设计:UniTT-Stereo的关键设计包括:1) 采用Transformer作为特征提取器,利用其强大的建模能力;2) 设计了mask图像重建和跨视图对应点预测两个自监督任务,以学习图像的局部特征和跨视图的几何关系;3) 提出了动态mask比例调整策略,根据立体匹配任务的特点优化mask比例;4) 使用立体定制的损失函数,例如smooth L1 loss和视差梯度损失,以提高立体匹配的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniTT-Stereo在ETH3D、KITTI 2012和KITTI 2015等多个基准数据集上取得了state-of-the-art的性能。例如,在KITTI 2015数据集上,相比于之前的最佳方法,UniTT-Stereo在D1-all指标上取得了显著的提升,证明了其在立体匹配任务上的优越性。此外,频率分析和注意力图分析也验证了该方法在学习局部特征和跨视图几何关系方面的有效性。

🎯 应用场景

UniTT-Stereo在自动驾驶、机器人导航、三维重建等领域具有广泛的应用前景。精确的深度估计是这些应用的关键组成部分。该研究通过提升立体匹配的精度和鲁棒性,可以提高自动驾驶系统的环境感知能力,增强机器人导航的安全性,并改善三维重建的质量。未来,该方法有望应用于更多需要精确深度信息的场景。

📄 摘要(原文)

Unlike other vision tasks where Transformer-based approaches are becoming increasingly common, stereo depth estimation is still dominated by convolution-based approaches. This is mainly due to the limited availability of real-world ground truth for stereo matching, which is a limiting factor in improving the performance of Transformer-based stereo approaches. In this paper, we propose UniTT-Stereo, a method to maximize the potential of Transformer-based stereo architectures by unifying self-supervised learning used for pre-training with stereo matching framework based on supervised learning. To be specific, we explore the effectiveness of reconstructing features of masked portions in an input image and at the same time predicting corresponding points in another image from the perspective of locality inductive bias, which is crucial in training models with limited training data. Moreover, to address these challenging tasks of reconstruction-and-prediction, we present a new strategy to vary a masking ratio when training the stereo model with stereo-tailored losses. State-of-the-art performance of UniTT-Stereo is validated on various benchmarks such as ETH3D, KITTI 2012, and KITTI 2015 datasets. Lastly, to investigate the advantages of the proposed approach, we provide a frequency analysis of feature maps and the analysis of locality inductive bias based on attention maps.