LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
作者: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
分类: cs.CV, cs.GR, cs.LG
发布日期: 2024-10-22 (更新: 2025-04-02)
备注: project page: https://haian-jin.github.io/projects/LVSM/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
LVSM:一种基于Transformer的极少3D先验知识的大规模视角合成模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 Transformer 3D重建 场景表示 深度学习
📋 核心要点
- 现有新视角合成方法依赖于3D表示或网络设计中的3D先验知识,限制了其泛化性和效率。
- LVSM通过Transformer架构,完全数据驱动地学习场景表示,避免了人为设计的3D归纳偏置。
- 实验表明,LVSM在多个数据集上取得了SOTA性能,且计算资源需求更低,泛化能力更强。
📝 摘要(中文)
我们提出了大规模视角合成模型(LVSM),这是一种新颖的基于Transformer的方法,用于从稀疏视角的输入中进行可扩展和可泛化的新视角合成。我们介绍了两种架构:(1)编码器-解码器LVSM,它将输入图像tokens编码为固定数量的1D潜在tokens,作为完全学习的场景表示,并从中解码新视角的图像;(2)仅解码器LVSM,它直接将输入图像映射到新视角的输出,完全消除了中间场景表示。两种模型都绕过了先前方法中使用的3D归纳偏置——从3D表示(例如,NeRF,3DGS)到网络设计(例如,极线投影,平面扫描)——采用完全数据驱动的方法解决新视角合成问题。虽然编码器-解码器模型由于其独立的潜在表示而提供更快的推理速度,但仅解码器LVSM实现了卓越的质量、可扩展性和零样本泛化,优于先前的最先进方法1.5到3.5 dB PSNR。跨多个数据集的综合评估表明,两种LVSM变体都实现了最先进的新视角合成质量。值得注意的是,即使使用减少的计算资源(1-2个GPU),我们的模型也超越了所有先前的方法。
🔬 方法详解
问题定义:现有新视角合成方法,如NeRF和3DGS,依赖于显式的3D场景表示或网络结构中的3D几何先验知识(如极线几何约束)。这些先验知识虽然在一定程度上提高了性能,但也限制了模型的泛化能力和对复杂场景的适应性。此外,某些方法计算复杂度高,难以扩展到大规模场景。
核心思路:LVSM的核心思想是尽可能减少对3D先验知识的依赖,通过Transformer架构直接学习输入图像到新视角图像的映射关系。通过完全数据驱动的方式,让模型自动学习场景的内在结构和几何关系,从而提高泛化能力和适应性。
技术框架:LVSM包含两种架构:编码器-解码器结构和仅解码器结构。编码器-解码器结构首先将输入图像编码为一组潜在的tokens,然后使用解码器从这些tokens生成新视角的图像。仅解码器结构则直接将输入图像映射到新视角的图像,完全消除了中间场景表示。两种结构都基于Transformer架构,利用自注意力机制学习图像之间的关系。
关键创新:LVSM最重要的创新在于其极少3D先验知识的设计理念。与以往方法不同,LVSM避免了显式的3D表示和人为设计的几何约束,而是通过Transformer架构从数据中学习场景的结构。这种方法使得模型具有更强的泛化能力和适应性。
关键设计:LVSM的关键设计包括:1)使用Transformer架构进行图像编码和解码;2)设计了两种不同的架构(编码器-解码器和仅解码器),以探索不同的场景表示方式;3)使用自注意力机制学习图像之间的关系;4)通过大量数据进行训练,使模型能够学习到场景的内在结构。
🖼️ 关键图片
📊 实验亮点
LVSM在多个数据集上取得了SOTA性能,例如,在某些数据集上,仅解码器LVSM比之前的SOTA方法提高了1.5到3.5 dB PSNR。更重要的是,LVSM在计算资源需求较低的情况下(1-2个GPU)超越了所有先前的方法,展示了其高效性和可扩展性。实验结果表明,LVSM在泛化能力方面也优于以往方法。
🎯 应用场景
LVSM具有广泛的应用前景,包括虚拟现实、增强现实、机器人导航、自动驾驶、游戏开发等领域。它可以用于生成高质量的新视角图像,从而提高用户体验和系统的感知能力。此外,LVSM的泛化能力使其能够应用于各种不同的场景,具有很高的实际价值。
📄 摘要(原文)
We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods -- from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) -- addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .