High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

📄 arXiv: 2502.12752v1 📥 PDF

作者: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers

分类: cs.CV

发布日期: 2025-02-18


💡 一句话要点

SplatDiff:提出一种基于Splatting引导的扩散模型,用于高保真度新视角合成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 扩散模型 Splatting 单视角重建 三维重建 几何引导 纹理生成

📋 核心要点

  1. 现有新视角合成方法在单视角或稀疏视角下难以生成高保真图像,Splatting方法易产生几何失真,扩散模型则易出现纹理幻觉。
  2. SplatDiff的核心在于结合Splatting的几何先验和扩散模型的生成能力,通过Splatting引导扩散过程,实现几何一致且细节丰富的新视角合成。
  3. 实验表明,SplatDiff在单视角新视角合成任务上取得了SOTA性能,并且在零样本条件下,也能有效处理稀疏视角合成和立体视频转换等任务。

📝 摘要(中文)

本文提出SplatDiff,一种像素Splatting引导的视频扩散模型,旨在从单张图像合成高保真度的新视角。现有的基于Splatting的方法由于Splatting误差,经常产生扭曲的几何结构。虽然基于扩散的方法利用丰富的3D先验来改进几何结构,但它们通常会产生纹理幻觉。SplatDiff采用对齐的合成策略,以精确控制目标视点和几何一致的视角合成。为了减轻纹理幻觉,设计了一个纹理桥接模块,通过自适应特征融合实现高保真纹理生成。SplatDiff利用Splatting和扩散的优势,生成具有一致几何结构和高保真细节的新视角。大量实验验证了SplatDiff在单视角NVS中的最先进性能。此外,无需额外训练,SplatDiff在各种任务中表现出卓越的零样本性能,包括稀疏视角NVS和立体视频转换。

🔬 方法详解

问题定义:论文旨在解决从单张或少量图像中合成高质量新视角图像的问题。现有基于Splatting的方法容易产生几何扭曲,而基于扩散的方法虽然几何结构较好,但容易出现纹理幻觉,导致合成图像质量下降。

核心思路:SplatDiff的核心思路是将Splatting的几何先验信息融入到扩散模型中,利用Splatting提供粗略的几何结构引导,同时利用扩散模型强大的生成能力填充细节和修正几何误差,从而实现几何一致且细节丰富的新视角合成。这样既能避免Splatting的几何失真,又能减少扩散模型的纹理幻觉。

技术框架:SplatDiff的整体框架是一个像素Splatting引导的视频扩散模型。首先,使用Splatting将输入图像投影到目标视角,得到一个粗略的几何表示。然后,将该几何表示作为条件输入到扩散模型中,引导扩散过程生成最终的新视角图像。框架包含对齐的合成策略和纹理桥接模块。对齐的合成策略用于精确控制目标视点和保证几何一致性。纹理桥接模块用于自适应地融合Splatting提供的纹理信息和扩散模型生成的纹理信息,从而减少纹理幻觉。

关键创新:SplatDiff的关键创新在于将Splatting和扩散模型有效结合,利用Splatting提供几何引导,利用扩散模型生成高保真细节。与现有方法相比,SplatDiff能够更好地平衡几何一致性和纹理质量,从而生成更逼真的新视角图像。纹理桥接模块是另一个创新点,它能够自适应地融合Splatting和扩散模型的特征,有效抑制纹理幻觉。

关键设计:对齐的合成策略通过调整Splatting的投影参数,确保目标视点与扩散模型的生成过程对齐。纹理桥接模块采用自注意力机制,自适应地学习Splatting特征和扩散模型特征的权重,从而实现最佳的特征融合。损失函数包括L1损失、LPIPS损失和对抗损失,用于保证图像质量和真实感。具体的网络结构细节和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SplatDiff在单视角新视角合成任务上取得了state-of-the-art的性能。实验结果表明,SplatDiff在多个数据集上都优于现有的方法,并且在视觉质量和定量指标上都有显著提升。更重要的是,SplatDiff在零样本条件下,也能有效处理稀疏视角合成和立体视频转换等任务,展示了其强大的泛化能力。

🎯 应用场景

SplatDiff在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。例如,可以利用SplatDiff从单张照片生成逼真的3D模型,用于VR/AR体验。也可以用于游戏中的角色建模和场景生成,提高游戏的真实感和沉浸感。此外,SplatDiff还可以用于立体视频转换,将2D视频转换为具有3D效果的立体视频。

📄 摘要(原文)

Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.