Novel View Synthesis using DDIM Inversion
作者: Sehajdeep Singh, A V Subramanyam, Aditya Gupta, Sahil Gupta
分类: cs.CV
发布日期: 2025-08-14 (更新: 2026-01-08)
💡 一句话要点
提出基于DDIM反演和姿态条件U-Net的新视角合成方法,提升图像质量。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 新视角合成 DDIM反演 扩散模型 U-Net 视角转换
📋 核心要点
- 现有新视角合成方法计算成本高昂,且存在重建模糊和泛化性差的问题。
- 利用DDIM反演和相机姿态条件U-Net,预测目标视角对应的反演潜在变量。
- 提出一种新的融合策略,利用DDIM反演中的噪声相关性,保留纹理细节,提升图像质量。
📝 摘要(中文)
从单张输入图像合成新视角图像是一项具有挑战性的任务。它需要在推断遮挡区域细节的同时,外推场景的3D结构,并保持跨视点的几何一致性。许多现有方法需要使用多个视角对大型扩散骨干网络进行微调,或者从头开始训练扩散模型,这非常昂贵,并且存在重建模糊和泛化能力差的问题。本文提出了一种轻量级的视角转换框架,可以直接利用预训练扩散模型的高保真生成能力,从新视角重建场景。给定单张输入图像的DDIM反演潜在变量,我们采用相机姿态条件转换U-Net (TUNet) 来预测对应于所需目标视角的反演潜在变量。为了解决预测潜在变量采样后图像模糊的问题,我们提出了一种新的融合策略,该策略利用了DDIM反演中固有的噪声相关结构,有助于保留纹理和精细细节。为了合成新视角,我们使用融合后的潜在变量作为DDIM采样的初始条件,从而利用预训练扩散模型的生成先验。在MVImgNet上的大量实验表明,我们的方法优于现有方法。
🔬 方法详解
问题定义:论文旨在解决单张图像新视角合成问题。现有方法主要依赖于微调大型扩散模型或从头训练,计算成本高昂,且合成图像质量不高,存在模糊和泛化性差的问题。这些方法难以充分利用预训练扩散模型的强大生成能力。
核心思路:论文的核心思路是利用预训练扩散模型的生成先验,并结合DDIM反演技术,将新视角合成问题转化为潜在空间中的视角转换问题。通过预测目标视角的潜在变量,并利用融合策略增强图像细节,最终实现高质量的新视角合成。
技术框架:整体框架包含以下几个主要步骤:1) 使用DDIM反演将输入图像编码到潜在空间;2) 使用相机姿态条件转换U-Net (TUNet) 预测目标视角的潜在变量;3) 使用提出的融合策略融合原始潜在变量和预测的潜在变量,以保留图像细节;4) 使用融合后的潜在变量作为初始条件,通过DDIM采样生成最终的新视角图像。
关键创新:论文的关键创新在于提出的融合策略,该策略利用了DDIM反演中固有的噪声相关结构。传统方法直接使用预测的潜在变量进行采样,容易导致图像模糊。而该融合策略能够有效地保留原始图像的纹理和精细细节,从而提升合成图像的质量。
关键设计:TUNet是一个相机姿态条件U-Net,其输入是原始图像的DDIM反演潜在变量和目标相机的姿态信息。损失函数的设计旨在最小化预测潜在变量与真实目标视角潜在变量之间的差异。融合策略的具体实现方式是利用DDIM反演过程中的噪声信息,通过加权平均的方式融合原始潜在变量和预测的潜在变量。具体的权重参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MVImgNet数据集上优于现有方法。具体性能提升数据未知,但摘要中明确指出该方法能够有效解决现有方法存在的重建模糊和泛化性差的问题,从而生成更高质量的新视角图像。该方法在保留图像细节方面表现出色。
🎯 应用场景
该研究成果可应用于三维重建、虚拟现实、增强现实、游戏开发等领域。例如,用户仅需提供一张照片,即可生成不同视角的图像,从而实现更逼真的三维模型构建和沉浸式体验。该方法还可以用于图像编辑和修复,例如,可以根据用户指定的视角,自动补全图像中缺失的部分。
📄 摘要(原文)
Synthesizing novel views from a single input image is a challenging task. It requires extrapolating the 3D structure of a scene while inferring details in occluded regions, and maintaining geometric consistency across viewpoints. Many existing methods must fine-tune large diffusion backbones using multiple views or train a diffusion model from scratch, which is extremely expensive. Additionally, they suffer from blurry reconstruction and poor generalization. This gap presents the opportunity to explore an explicit lightweight view translation framework that can directly utilize the high-fidelity generative capabilities of a pretrained diffusion model while reconstructing a scene from a novel view. Given the DDIM-inverted latent of a single input image, we employ a camera pose-conditioned translation U-Net, TUNet, to predict the inverted latent corresponding to the desired target view. However, the image sampled using the predicted latent may result in a blurry reconstruction. To this end, we propose a novel fusion strategy that exploits the inherent noise correlation structure observed in DDIM inversion. The proposed fusion strategy helps preserve the texture and fine-grained details. To synthesize the novel view, we use the fused latent as the initial condition for DDIM sampling, leveraging the generative prior of the pretrained diffusion model. Extensive experiments on MVImgNet demonstrate that our method outperforms existing methods.