Revisiting Disparity from Dual-Pixel Images: Physics-Informed Lightweight Depth Estimation

作者: Teppei Kurita, Yuhi Kondo, Legong Sun, Takayuki Sasaki, Sho Nitta, Yasuhiro Hashimoto, Yoshinori Muramatsu, Yusuke Moriuchi

分类: cs.CV

发布日期: 2024-11-06

备注: Accepted to IEEE Winter Conference on Applications of Computer Vision (WACV) 2025

💡 一句话要点

提出基于物理信息的轻量级双像素图像深度估计方法，实现高性能和小模型。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 双像素图像 深度估计 视差估计 轻量级网络 物理信息 非学习细化 RGB-D数据集

📋 核心要点

传统深度学习方法参数量大，未能充分利用双像素图像的视差约束，导致深度估计性能受限。
通过显式约束视差，并学习双像素图像的物理特性，提出了一种轻量级的深度估计网络。
实验表明，该方法在减少模型大小的同时，实现了最先进的深度估计精度，且无需双像素数据集训练。

📝 摘要（中文）

本研究提出了一种使用双像素（DP）图像的高性能视差（深度）估计方法，该方法参数量少。传统的端到端深度学习方法参数众多，但未能充分利用视差约束，限制了其性能。因此，我们提出了一种基于补全网络的轻量级视差估计方法，该方法显式地约束视差，并学习DP的物理和系统视差特性。通过参数化地建模DP特有的视差误差，并将其用于训练期间的采样，网络获得了DP的独特属性并增强了鲁棒性。这种学习还允许我们使用通用的RGB-D数据集进行训练，而无需耗费人力获取DP数据集。此外，我们提出了一种非学习的细化框架，通过适当地细化网络输出的置信度图，有效地处理固有的视差扩展误差。结果表明，即使不使用DP数据集进行训练，所提出的方法也实现了最先进的结果，同时将整个系统的大小减少到传统方法的1/5，从而证明了其有效性。代码和数据集可在我们的项目网站上找到。

🔬 方法详解

问题定义：论文旨在解决双像素图像的深度估计问题。现有基于深度学习的方法通常参数量大，计算复杂度高，并且没有充分利用双像素图像固有的视差信息，导致深度估计精度不高。此外，获取大规模的双像素数据集成本很高，限制了模型的训练和泛化能力。

核心思路：论文的核心思路是设计一个轻量级的网络，显式地建模和利用双像素图像的视差特性。通过参数化建模双像素图像特有的视差误差，并在训练过程中进行采样，使网络能够学习到双像素图像的物理和系统特性，从而提高深度估计的准确性和鲁棒性。同时，利用非学习的细化框架处理视差扩展误差。

技术框架：该方法主要包含两个阶段：基于补全网络的视差估计和非学习的视差细化。首先，使用一个轻量级的补全网络进行初始视差估计，该网络在训练过程中利用参数化的视差误差模型进行采样。然后，使用一个非学习的细化框架，基于置信度图对初始视差估计结果进行细化，以减少视差扩展误差。

关键创新：该方法最重要的创新点在于：1) 显式地建模和利用双像素图像的视差特性，通过参数化视差误差模型，使网络能够学习到双像素图像的物理和系统特性。2) 提出了一种非学习的细化框架，有效地处理了视差扩展误差，提高了深度估计的精度。3) 能够在没有双像素数据集的情况下，利用通用的RGB-D数据集进行训练。

关键设计：在网络结构方面，使用了轻量级的补全网络，以减少参数量和计算复杂度。在损失函数方面，使用了标准的深度估计损失函数，并结合了参数化的视差误差模型进行采样。在非学习的细化框架中，使用了置信度图来指导视差细化，并采用了一些启发式的规则来处理视差扩展误差。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在保持较高深度估计精度的同时，显著减少了模型的大小，仅为传统方法的1/5。即使不使用双像素数据集进行训练，该方法也能取得state-of-the-art的结果，证明了其有效性和泛化能力。项目提供了代码和数据集，方便其他研究者进行复现和改进。

🎯 应用场景

该研究成果可应用于各种需要深度信息的场景，如移动机器人、自动驾驶、增强现实和虚拟现实等。轻量级的模型设计使其能够部署在资源受限的设备上，例如手机和嵌入式系统。无需双像素数据集进行训练的特性，降低了数据采集的成本，加速了算法的落地。

📄 摘要（原文）

In this study, we propose a high-performance disparity (depth) estimation method using dual-pixel (DP) images with few parameters. Conventional end-to-end deep-learning methods have many parameters but do not fully exploit disparity constraints, which limits their performance. Therefore, we propose a lightweight disparity estimation method based on a completion-based network that explicitly constrains disparity and learns the physical and systemic disparity properties of DP. By modeling the DP-specific disparity error parametrically and using it for sampling during training, the network acquires the unique properties of DP and enhances robustness. This learning also allows us to use a common RGB-D dataset for training without a DP dataset, which is labor-intensive to acquire. Furthermore, we propose a non-learning-based refinement framework that efficiently handles inherent disparity expansion errors by appropriately refining the confidence map of the network output. As a result, the proposed method achieved state-of-the-art results while reducing the overall system size to 1/5 of that of the conventional method, even without using the DP dataset for training, thereby demonstrating its effectiveness. The code and dataset are available on our project site.

Revisiting Disparity from Dual-Pixel Images: Physics-Informed Lightweight Depth Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理