Self-Assessed Generation: Trustworthy Label Generation for Optical Flow and Stereo Matching in Real-world

📄 arXiv: 2410.10453v1 📥 PDF

作者: Han Ling, Yinghui Sun, Quansen Sun, Ivor Tsang, Yuhui Zheng

分类: cs.CV

发布日期: 2024-10-14


💡 一句话要点

提出自评估生成(SAG)框架,提升光流和立体匹配在真实场景的泛化性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 自监督学习 光流估计 立体匹配 泛化能力 重建场

📋 核心要点

  1. 现有光流和立体匹配方法在真实场景泛化性差,主要原因是数据集制作成本高昂,且自监督方法存在结果模糊和训练复杂等问题。
  2. 论文提出自评估生成(SAG)框架,通过重建场生成高质量数据集,并量化置信度以消除生成缺陷,从而提升模型泛化能力。
  3. SAG无需修改现有方法或损失函数,即可直接应用于最先进的深度网络,并在主流数据集上显著提升自监督方法的泛化性能。

📝 摘要(中文)

当前光流和立体匹配方法面临的一个重大挑战是难以很好地泛化到真实世界。这主要是由于生成数据集所需的高成本,以及现有自监督方法在模糊结果和复杂模型训练问题上的局限性。为了解决上述挑战,我们提出了一个统一的自监督泛化框架,用于光流和立体任务:自评估生成(SAG)。与以往的自监督方法不同,SAG是数据驱动的,使用先进的重建技术从RGB图像构建重建场,并在此基础上生成数据集。然后,我们从多个角度量化生成结果的置信度,例如重建场分布、几何一致性和结构相似性,以消除生成过程中不可避免的缺陷。我们还在SAG中设计了一个3D飞行前景自动渲染管道,以鼓励网络学习遮挡和运动前景。实验表明,由于SAG不涉及方法或损失函数的改变,它可以直接自监督训练最先进的深度网络,大大提高了自监督方法在当前主流光流和立体匹配数据集上的泛化性能。与以往的训练模式相比,SAG更具通用性、成本效益和准确性。

🔬 方法详解

问题定义:现有光流和立体匹配方法在真实场景下的泛化能力不足。主要痛点在于真实场景数据集的获取成本高昂,而现有的自监督方法在生成训练数据时,容易产生模糊的结果,并且模型训练过程复杂,难以达到理想的性能。

核心思路:论文的核心思路是提出一种数据驱动的自监督学习框架,即自评估生成(SAG)。该框架通过高质量的重建场生成训练数据,并对生成的数据进行置信度评估,从而筛选出可靠的训练样本。通过这种方式,可以降低对大规模真实标注数据的依赖,同时保证训练数据的质量,从而提升模型在真实场景下的泛化能力。

技术框架:SAG框架主要包含以下几个阶段:1) 使用RGB图像构建重建场;2) 基于重建场生成光流和立体匹配数据集;3) 从多个角度(重建场分布、几何一致性、结构相似性等)量化生成结果的置信度;4) 设计3D飞行前景自动渲染管道,以增强模型对遮挡和运动前景的学习。整个框架无需修改现有的光流和立体匹配方法,可以直接应用于各种深度网络。

关键创新:SAG的关键创新在于其数据驱动的自监督学习方式和置信度评估机制。与传统的自监督方法不同,SAG不是直接设计复杂的损失函数或网络结构,而是专注于生成高质量的训练数据,并通过置信度评估来筛选可靠的样本。这种方式更加灵活和通用,可以应用于各种不同的光流和立体匹配方法。

关键设计:SAG的关键设计包括:1) 使用先进的重建技术构建高质量的重建场,例如使用多视角立体(MVS)或SLAM等方法;2) 设计多维度的置信度评估指标,例如重建场分布的熵、几何一致性误差、结构相似性指标等;3) 设计3D飞行前景自动渲染管道,通过随机生成飞行物体的运动轨迹和外观,来模拟真实场景中的遮挡和运动前景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAG框架在主流光流和立体匹配数据集上取得了显著的性能提升。实验结果表明,SAG可以有效地提高自监督方法在真实场景下的泛化能力,并且无需修改现有的网络结构或损失函数。具体性能数据未知,但论文强调SAG在通用性、成本效益和准确性方面优于以往的训练模式。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、虚拟现实等领域。通过自监督的方式生成高质量的训练数据,可以降低对人工标注数据的依赖,从而加速这些技术在真实场景中的部署和应用。未来,该方法还可以扩展到其他计算机视觉任务,例如语义分割、目标检测等。

📄 摘要(原文)

A significant challenge facing current optical flow and stereo methods is the difficulty in generalizing them well to the real world. This is mainly due to the high costs required to produce datasets, and the limitations of existing self-supervised methods on fuzzy results and complex model training problems. To address the above challenges, we propose a unified self-supervised generalization framework for optical flow and stereo tasks: Self-Assessed Generation (SAG). Unlike previous self-supervised methods, SAG is data-driven, using advanced reconstruction techniques to construct a reconstruction field from RGB images and generate datasets based on it. Afterward, we quantified the confidence level of the generated results from multiple perspectives, such as reconstruction field distribution, geometric consistency, and structural similarity, to eliminate inevitable defects in the generation process. We also designed a 3D flight foreground automatic rendering pipeline in SAG to encourage the network to learn occlusion and motion foreground. Experimentally, because SAG does not involve changes to methods or loss functions, it can directly self-supervised train the state-of-the-art deep networks, greatly improving the generalization performance of self-supervised methods on current mainstream optical flow and stereo-matching datasets. Compared to previous training modes, SAG is more generalized, cost-effective, and accurate.