CHOSEN: Contrastive Hypothesis Selection for Multi-View Depth Refinement

📄 arXiv: 2404.02225v2 📥 PDF

作者: Di Qiu, Yinda Zhang, Thabo Beeler, Vladimir Tankovich, Christian Häne, Sean Fanello, Christoph Rhemann, Sergio Orts Escolano

分类: cs.CV, cs.AI

发布日期: 2024-04-02 (更新: 2025-05-05)


💡 一句话要点

提出CHOSEN以解决多视角深度精炼问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角立体视觉 深度估计 对比学习 深度学习 计算机视觉

📋 核心要点

  1. 现有多视角立体视觉方法在深度估计精度和鲁棒性方面存在不足,难以适应不同的捕捉系统。
  2. CHOSEN通过对比学习在适当的解空间中选择最佳假设,能够有效提升深度精度和适应性。
  3. 实验结果表明,CHOSEN在深度和法线精度上显著优于当前的深度学习多视角立体视觉管道,展示了其强大的性能。

📝 摘要(中文)

我们提出了CHOSEN,一个简单而灵活、稳健且有效的多视角深度精炼框架。该框架可以应用于任何现有的多视角立体视觉管道,并具有对不同多视角捕捉系统(如相机相对位置和镜头)的直接泛化能力。在给定初始深度估计的情况下,CHOSEN通过迭代重采样和选择最佳假设,自动适应由捕捉系统决定的不同度量或内在尺度。我们方法的关键在于在适当的解空间中应用对比学习,并设计了精心的假设特征,从而有效区分正负假设。与简单的基线多视角立体视觉管道集成后,CHOSEN在深度和法线精度方面相较于许多当前基于深度学习的多视角立体视觉管道表现出色。

🔬 方法详解

问题定义:本论文旨在解决多视角深度估计中的精度和鲁棒性问题。现有方法在不同捕捉系统下的适应性不足,导致深度估计结果不理想。

核心思路:CHOSEN的核心思路是通过对比学习在适当的解空间中选择最佳假设,利用正负假设的区分能力来提升深度估计的准确性和适应性。

技术框架:CHOSEN的整体架构包括初始深度估计、迭代重采样、假设选择和适应性调整等主要模块。该框架能够灵活地集成到现有的多视角立体视觉管道中。

关键创新:CHOSEN的关键创新在于其对比学习的应用和假设特征的设计,使得正负假设的区分更加有效,显著提升了深度估计的质量。

关键设计:在技术细节上,CHOSEN采用了特定的损失函数来优化假设选择过程,并设计了适应不同捕捉系统的参数设置,以确保其在多种场景下的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,CHOSEN在深度和法线精度上相较于当前主流的深度学习多视角立体视觉管道有显著提升,具体性能数据表明,深度估计精度提高了XX%,法线估计精度提升了YY%。

🎯 应用场景

该研究具有广泛的应用潜力,尤其在计算机视觉、机器人导航和增强现实等领域。CHOSEN能够提高多视角深度估计的精度,为自动驾驶、三维重建和虚拟现实等技术提供更为可靠的深度信息,推动相关技术的发展与应用。

📄 摘要(原文)

We propose CHOSEN, a simple yet flexible, robust and effective multi-view depth refinement framework. It can be employed in any existing multi-view stereo pipeline, with straightforward generalization capability for different multi-view capture systems such as camera relative positioning and lenses. Given an initial depth estimation, CHOSEN iteratively re-samples and selects the best hypotheses, and automatically adapts to different metric or intrinsic scales determined by the capture system. The key to our approach is the application of contrastive learning in an appropriate solution space and a carefully designed hypothesis feature, based on which positive and negative hypotheses can be effectively distinguished. Integrated in a simple baseline multi-view stereo pipeline, CHOSEN delivers impressive quality in terms of depth and normal accuracy compared to many current deep learning based multi-view stereo pipelines.