High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

作者: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers

分类: cs.CV

发布日期: 2025-02-18

💡 一句话要点

SplatDiff：提出一种基于Splatting引导的扩散模型，用于高保真度新视角合成

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 扩散模型 Splatting 单视角重建 三维重建 几何引导 纹理生成

📋 核心要点

现有新视角合成方法在单视角或稀疏视角下难以生成高保真图像，Splatting方法易产生几何失真，扩散模型则易出现纹理幻觉。
SplatDiff的核心在于结合Splatting的几何先验和扩散模型的生成能力，通过Splatting引导扩散过程，实现几何一致且细节丰富的新视角合成。
实验表明，SplatDiff在单视角新视角合成任务上取得了SOTA性能，并且在零样本条件下，也能有效处理稀疏视角合成和立体视频转换等任务。

📝 摘要（中文）

本文提出SplatDiff，一种像素Splatting引导的视频扩散模型，旨在从单张图像合成高保真度的新视角。现有的基于Splatting的方法由于Splatting误差，经常产生扭曲的几何结构。虽然基于扩散的方法利用丰富的3D先验来改进几何结构，但它们通常会产生纹理幻觉。SplatDiff采用对齐的合成策略，以精确控制目标视点和几何一致的视角合成。为了减轻纹理幻觉，设计了一个纹理桥接模块，通过自适应特征融合实现高保真纹理生成。SplatDiff利用Splatting和扩散的优势，生成具有一致几何结构和高保真细节的新视角。大量实验验证了SplatDiff在单视角NVS中的最先进性能。此外，无需额外训练，SplatDiff在各种任务中表现出卓越的零样本性能，包括稀疏视角NVS和立体视频转换。

🔬 方法详解

问题定义：论文旨在解决从单张或少量图像中合成高质量新视角图像的问题。现有基于Splatting的方法容易产生几何扭曲，而基于扩散的方法虽然几何结构较好，但容易出现纹理幻觉，导致合成图像质量下降。

核心思路：SplatDiff的核心思路是将Splatting的几何先验信息融入到扩散模型中，利用Splatting提供粗略的几何结构引导，同时利用扩散模型强大的生成能力填充细节和修正几何误差，从而实现几何一致且细节丰富的新视角合成。这样既能避免Splatting的几何失真，又能减少扩散模型的纹理幻觉。

技术框架：SplatDiff的整体框架是一个像素Splatting引导的视频扩散模型。首先，使用Splatting将输入图像投影到目标视角，得到一个粗略的几何表示。然后，将该几何表示作为条件输入到扩散模型中，引导扩散过程生成最终的新视角图像。框架包含对齐的合成策略和纹理桥接模块。对齐的合成策略用于精确控制目标视点和保证几何一致性。纹理桥接模块用于自适应地融合Splatting提供的纹理信息和扩散模型生成的纹理信息，从而减少纹理幻觉。

关键创新：SplatDiff的关键创新在于将Splatting和扩散模型有效结合，利用Splatting提供几何引导，利用扩散模型生成高保真细节。与现有方法相比，SplatDiff能够更好地平衡几何一致性和纹理质量，从而生成更逼真的新视角图像。纹理桥接模块是另一个创新点，它能够自适应地融合Splatting和扩散模型的特征，有效抑制纹理幻觉。

关键设计：对齐的合成策略通过调整Splatting的投影参数，确保目标视点与扩散模型的生成过程对齐。纹理桥接模块采用自注意力机制，自适应地学习Splatting特征和扩散模型特征的权重，从而实现最佳的特征融合。损失函数包括L1损失、LPIPS损失和对抗损失，用于保证图像质量和真实感。具体的网络结构细节和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

SplatDiff在单视角新视角合成任务上取得了state-of-the-art的性能。实验结果表明，SplatDiff在多个数据集上都优于现有的方法，并且在视觉质量和定量指标上都有显著提升。更重要的是，SplatDiff在零样本条件下，也能有效处理稀疏视角合成和立体视频转换等任务，展示了其强大的泛化能力。

🎯 应用场景

SplatDiff在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。例如，可以利用SplatDiff从单张照片生成逼真的3D模型，用于VR/AR体验。也可以用于游戏中的角色建模和场景生成，提高游戏的真实感和沉浸感。此外，SplatDiff还可以用于立体视频转换，将2D视频转换为具有3D效果的立体视频。

📄 摘要（原文）

Despite recent advances in Novel View Synthesis (NVS), generating high-fidelity views from single or sparse observations remains a significant challenge. Existing splatting-based approaches often produce distorted geometry due to splatting errors. While diffusion-based methods leverage rich 3D priors to achieve improved geometry, they often suffer from texture hallucination. In this paper, we introduce SplatDiff, a pixel-splatting-guided video diffusion model designed to synthesize high-fidelity novel views from a single image. Specifically, we propose an aligned synthesis strategy for precise control of target viewpoints and geometry-consistent view synthesis. To mitigate texture hallucination, we design a texture bridge module that enables high-fidelity texture generation through adaptive feature fusion. In this manner, SplatDiff leverages the strengths of splatting and diffusion to generate novel views with consistent geometry and high-fidelity details. Extensive experiments verify the state-of-the-art performance of SplatDiff in single-view NVS. Additionally, without extra training, SplatDiff shows remarkable zero-shot performance across diverse tasks, including sparse-view NVS and stereo video conversion.

High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理