DT-NVS: Diffusion Transformers for Novel View Synthesis

📄 arXiv: 2511.08823v1 📥 PDF

作者: Wonbong Jang, Jonathan Tremblay, Lourdes Agapito

分类: cs.CV, cs.AI

发布日期: 2025-11-11

备注: 14 pages


💡 一句话要点

提出DT-NVS,利用Transformer的3D扩散模型实现真实场景的新视角合成

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 新视角合成 扩散模型 Transformer 3D感知 单目视觉

📋 核心要点

  1. 现有基于扩散模型的新视角合成方法主要集中于小范围相机运动或非自然物体中心场景,限制了其在真实场景中的应用。
  2. DT-NVS利用Transformer架构,构建3D感知的扩散模型,并设计了相机条件策略,以适应真实世界未对齐的数据集。
  3. 实验结果表明,DT-NVS在单视角图像生成新视角任务上,超越了现有3D感知扩散模型和确定性方法,并能生成多样化结果。

📝 摘要(中文)

本文针对从单视角图像生成自然场景新视角这一未被充分探索的问题,提出了DT-NVS,一种基于Transformer架构的3D感知扩散模型,用于广义新视角合成。该模型在包含真实世界、多类别、未对齐且随意拍摄的日常场景视频的大规模数据集上,仅使用图像损失进行训练。论文对Transformer和自注意力机制进行了重要改进,以将图像转换为3D表示,并提出了新的相机条件策略,从而可以在真实世界未对齐的数据集上进行训练。此外,还引入了一种新颖的训练范式,即在条件图像和采样的噪声输入之间交换参考帧的角色。在广义新视角合成任务上的评估表明,该方法优于最先进的3D感知扩散模型和确定性方法,并能生成多样化的输出。

🔬 方法详解

问题定义:论文旨在解决从单张图像生成真实世界复杂场景的新视角图像的问题。现有方法,特别是基于扩散模型的方法,通常受限于小范围的相机运动或者仅适用于物体中心场景,无法很好地处理真实世界中多类别、未对齐的日常场景视频。这些限制阻碍了新视角合成技术在更广泛的实际应用中的潜力。

核心思路:论文的核心思路是利用3D感知的扩散模型,结合Transformer架构的强大表示能力,学习从单张图像到3D场景表示的映射,并在此基础上生成新的视角。通过引入相机条件策略和创新的训练范式,模型能够适应真实世界未对齐的数据集,从而实现更广义的新视角合成。

技术框架:DT-NVS的整体框架是一个基于Transformer的3D扩散模型。主要包含以下几个模块:1) 图像编码器:将输入图像编码成特征表示。2) 3D表示模块:利用改进的Transformer和自注意力机制,将图像特征转换为3D场景表示。3) 相机条件模块:将目标相机的位姿信息融入到模型中,指导新视角的生成。4) 扩散模型:通过逐步去噪的过程,从噪声中生成新视角的图像。训练过程中,采用了图像损失函数来优化模型。

关键创新:论文的关键创新在于以下几个方面:1) 针对Transformer和自注意力机制的改进,使其更适合于图像到3D表示的转换。2) 新的相机条件策略,允许模型在真实世界未对齐的数据集上进行训练。3) 创新的训练范式,即在条件图像和采样的噪声输入之间交换参考帧的角色,增强了模型的泛化能力。

关键设计:在网络结构方面,论文可能采用了某种形式的注意力机制,例如Sparse Attention或者Axial Attention,以降低计算复杂度。在损失函数方面,除了常见的L1或L2损失外,可能还使用了感知损失或对抗损失,以提高生成图像的质量。相机条件模块的设计也至关重要,需要有效地将相机位姿信息融入到模型中,例如通过特征融合或条件归一化等方式。

📊 实验亮点

DT-NVS在广义新视角合成任务上取得了显著的性能提升,超越了现有的3D感知扩散模型和确定性方法。具体性能数据未知,但摘要强调了其在生成多样化输出方面的优势。该方法在处理真实世界、多类别、未对齐的日常场景视频方面表现出色,证明了其在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人导航、自动驾驶等领域。例如,在机器人导航中,机器人可以利用单目摄像头拍摄的图像,生成周围环境的新视角图像,从而更好地理解环境并规划路径。在虚拟现实中,用户可以通过单张照片生成逼真的3D场景,从而获得更沉浸式的体验。

📄 摘要(原文)

Generating novel views of a natural scene, e.g., every-day scenes both indoors and outdoors, from a single view is an under-explored problem, even though it is an organic extension to the object-centric novel view synthesis. Existing diffusion-based approaches focus rather on small camera movements in real scenes or only consider unnatural object-centric scenes, limiting their potential applications in real-world settings. In this paper we move away from these constrained regimes and propose a 3D diffusion model trained with image-only losses on a large-scale dataset of real-world, multi-category, unaligned, and casually acquired videos of everyday scenes. We propose DT-NVS, a 3D-aware diffusion model for generalized novel view synthesis that exploits a transformer-based architecture backbone. We make significant contributions to transformer and self-attention architectures to translate images to 3d representations, and novel camera conditioning strategies to allow training on real-world unaligned datasets. In addition, we introduce a novel training paradigm swapping the role of reference frame between the conditioning image and the sampled noisy input. We evaluate our approach on the 3D task of generalized novel view synthesis from a single input image and show improvements over state-of-the-art 3D aware diffusion models and deterministic approaches, while generating diverse outputs.