DPBridge: Latent Diffusion Bridge for Dense Prediction

📄 arXiv: 2412.20506v4 📥 PDF

作者: Haorui Ji, Taojun Lin, Hongdong Li

分类: cs.CV

发布日期: 2024-12-29 (更新: 2025-12-14)


💡 一句话要点

DPBridge:用于密集预测的潜在扩散桥模型,提升深度估计和法向量预测性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 扩散桥 密集预测 深度估计 表面法线预测 视觉先验 预训练模型

📋 核心要点

  1. 传统扩散模型在密集预测任务中效率较低,未能充分利用输入图像的先验信息。
  2. DPBridge 结合扩散桥模型与视觉先验,实现数据到数据的生成,并利用预训练模型。
  3. 通过可处理的反向转移核和微调策略,DPBridge 在深度估计等任务上取得了显著性能提升。

📝 摘要(中文)

扩散模型在捕捉复杂数据分布方面表现出卓越的能力,并在许多生成任务中取得了引人注目的成果。最近,它们已被扩展到诸如深度估计和表面法线预测等密集预测任务,但它们在该领域的全部潜力仍未得到充分探索。由于目标信号图和输入图像是像素级对齐的,因此传统的噪声到数据生成范式效率低下,并且与纯噪声相比,输入图像可以作为更具信息量的先验。扩散桥模型支持两个一般数据分布之间的数据到数据生成,提供了一种有希望的替代方案,但它们通常无法利用大型预训练基础模型中嵌入的丰富视觉先验。为了解决这些限制,我们将扩散桥公式与结构化视觉先验相结合,并引入 DPBridge,这是第一个用于密集预测任务的潜在扩散桥框架。为了解决扩散桥模型与预训练扩散骨干网络之间的不兼容性,我们提出了 (1) 扩散桥过程的可处理反向转移核,从而实现最大似然训练方案;(2) 微调策略,包括分布对齐归一化和图像一致性损失。跨广泛基准的实验验证了我们的方法始终如一地实现了卓越的性能,证明了其在不同场景下的有效性和泛化能力。

🔬 方法详解

问题定义:现有的扩散模型在应用于深度估计、法向量预测等密集预测任务时,通常采用噪声到数据的生成方式,忽略了输入图像本身所包含的丰富信息。这种方式效率低下,且未能充分利用预训练模型提供的视觉先验知识。因此,如何更有效地利用输入图像信息,并将其融入到扩散模型的框架中,是本文要解决的核心问题。

核心思路:本文的核心思路是利用扩散桥模型,实现从输入图像到目标信号图的数据到数据生成。扩散桥模型允许在两个不同的数据分布之间进行转换,这与密集预测任务中输入图像和目标信号图之间的关系非常契合。此外,本文还强调利用预训练模型提供的视觉先验知识,以提升生成质量和效率。

技术框架:DPBridge 的整体框架包含以下几个主要模块:1) 扩散桥过程:定义了从输入图像分布到目标信号图分布的扩散和反向过程。2) 反向转移核:提出了一个可处理的反向转移核,用于近似扩散桥的反向过程,并支持最大似然训练。3) 预训练扩散骨干网络:利用预训练的扩散模型作为骨干网络,提取输入图像的视觉特征。4) 微调策略:包括分布对齐归一化和图像一致性损失,用于解决扩散桥模型与预训练骨干网络之间的不兼容性问题。

关键创新:本文的关键创新在于将扩散桥模型与预训练扩散模型相结合,并提出了相应的训练策略。具体来说,可处理的反向转移核使得扩散桥模型能够进行最大似然训练,而分布对齐归一化和图像一致性损失则保证了预训练模型的知识能够有效地迁移到密集预测任务中。与传统的噪声到数据生成方式相比,DPBridge 能够更有效地利用输入图像的信息,并生成更准确的目标信号图。

关键设计:在反向转移核的设计上,采用了高斯分布的近似,并推导了其均值和方差的闭式解,从而保证了计算的可行性。分布对齐归一化通过调整特征的均值和方差,使得预训练模型的特征分布与目标任务的特征分布更加接近。图像一致性损失则鼓励生成的信号图与输入图像保持一致性,从而提升生成质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DPBridge 在多个基准数据集上均取得了显著的性能提升。例如,在深度估计任务中,DPBridge 相较于现有方法,在 RMSE 等指标上取得了明显的改进。此外,实验还验证了 DPBridge 在不同场景下的泛化能力,证明了其有效性和鲁棒性。

🎯 应用场景

DPBridge 在深度估计、表面法线预测等密集预测任务中具有广泛的应用前景。这些任务是计算机视觉和机器人领域的基础,可应用于三维重建、场景理解、自动驾驶等多个领域。该研究的成果有助于提升相关应用的精度和鲁棒性,并推动相关技术的发展。

📄 摘要(原文)

Diffusion models demonstrate remarkable capabilities in capturing complex data distributions and have achieved compelling results in many generative tasks. While they have recently been extended to dense prediction tasks such as depth estimation and surface normal prediction, their full potential in this area remains underexplored. As target signal maps and input images are pixel-wise aligned, the conventional noise-to-data generation paradigm is inefficient, and input images can serve as a more informative prior compared to pure noise. Diffusion bridge models, which support data-to-data generation between two general data distributions, offer a promising alternative, but they typically fail to exploit the rich visual priors embedded in large pretrained foundation models. To address these limitations, we integrate diffusion bridge formulation with structured visual priors and introduce DPBridge, the first latent diffusion bridge framework for dense prediction tasks. To resolve the incompatibility between diffusion bridge models and pretrained diffusion backbones, we propose (1) a tractable reverse transition kernel for the diffusion bridge process, enabling maximum likelihood training scheme; (2) finetuning strategies including distribution-aligned normalization and image consistency loss. Experiments across extensive benchmarks validate that our method consistently achieves superior performance, demonstrating its effectiveness and generalization capability under different scenarios.