Fast and Lightweight Novel View Synthesis with Differentiable Multiplane Image

📄 arXiv: 2606.02068v1 📥 PDF

作者: Kaidi Zhang, Guanxu Zhu

分类: cs.CV, cs.AI

发布日期: 2026-06-01


💡 一句话要点

提出基于可微多平面图像的快速轻量级新视角合成方法,解决NeRF等方法的速度和模型大小瓶颈。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 多平面图像 可微渲染 视觉基础模型 一步扩散 轻量级模型 快速渲染

📋 核心要点

  1. 现有NeRF和3DGS方法在新视角合成中面临渲染速度慢、模型体积大以及训练时间长等问题,难以在移动设备上部署。
  2. 论文提出基于可微多平面图像(MPI)的新方法,利用视觉基础模型进行几何初始化,并引入一步扩散来优化MPI。
  3. 实验表明,该方法在保持竞争力的合成质量的同时,显著提升了渲染速度并减小了模型体积,尤其是在正面场景中。

📝 摘要(中文)

近年来,新视角合成取得了显著进展,神经辐射场(NeRF)和3D高斯溅射(3DGS)等主流方法取得了令人印象深刻的结果。然而,这些方法通常难以平衡渲染速度和模型大小,并且基于优化的训练可能非常耗时。此外,它们通常依赖于密集的观测,在稀疏视角条件下通常无法产生令人满意的结果。虽然前馈重建显著减少了3DGS的优化时间,但其像素对齐公式从单个图像生成数百万个高斯分布,严重限制了其在移动设备上的实际部署。为了解决这些限制,我们重新审视了多平面图像(MPI)表示,它使用一组紧凑的平面层来表示场景,以实现高效的新视角合成。利用视觉基础模型的最新进展,我们利用预测的点图进行可靠的几何初始化,然后进行可微优化。为了解决稀疏初始化MPI中的孔洞和伪影问题,我们引入了一步扩散,它参与MPI的可微优化和渲染结果的后处理。与具有代表性的基于GS的方法相比,我们的方法速度提高了30.7%,并且仅使用了其模型大小的14.8%,同时在正面场景中实现了具有竞争力的合成质量。

🔬 方法详解

问题定义:现有NeRF和3DGS方法在新视角合成任务中,存在渲染速度慢、模型体积大、训练时间长,以及在稀疏视角下表现不佳等问题。特别是,基于高斯溅射的方法虽然加速了训练,但其像素对齐的特性导致模型参数量巨大,难以在移动设备等资源受限的平台上部署。

核心思路:论文的核心思路是利用多平面图像(MPI)这种紧凑的场景表示方法,结合视觉基础模型进行几何初始化,并通过可微优化和一步扩散来提升合成质量。MPI通过少量平面来表示场景,从而减少了模型参数量,提高了渲染速度。

技术框架:该方法主要包含以下几个阶段:1) 利用视觉基础模型预测点图,用于MPI的几何初始化;2) 对初始化的MPI进行可微优化,以提升合成质量;3) 引入一步扩散,用于填充MPI中的空洞和减少伪影,同时参与MPI的优化和渲染结果的后处理。整体流程是从粗到精,先通过视觉先验进行初始化,再通过优化和扩散进行精细化。

关键创新:该方法的关键创新在于:1) 将视觉基础模型与MPI表示相结合,利用视觉先验进行几何初始化,提高了MPI的初始化质量;2) 引入一步扩散,有效地解决了稀疏初始化MPI中常见的空洞和伪影问题,提升了合成质量;3) 在保证合成质量的前提下,显著降低了模型大小和渲染时间,更适合移动设备等资源受限的平台。

关键设计:论文的关键设计包括:1) 使用预训练的视觉基础模型(具体模型未知)来预测点图,作为MPI的初始化;2) 设计了可微的渲染过程,使得MPI可以进行端到端的优化;3) 一步扩散的具体实现细节(例如扩散模型的选择、训练方式等)未知,但其目标是填充空洞和减少伪影;4) 损失函数的设计细节未知,但应该包含渲染一致性损失和正则化项等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在正面场景中,渲染速度比代表性的基于高斯溅射的方法快30.7%,模型大小仅为其14.8%,同时保持了具有竞争力的合成质量。这些数据表明该方法在速度和模型大小方面具有显著优势。

🎯 应用场景

该研究成果可应用于移动端新视角合成、虚拟现实/增强现实(VR/AR)、游戏开发等领域。轻量级的模型和快速的渲染速度使其能够在移动设备上实现高质量的新视角合成,为用户提供更沉浸式的体验。此外,该方法在稀疏视角下的良好表现也使其适用于从少量图像重建场景的应用。

📄 摘要(原文)

Recently, novel view synthesis has witnessed remarkable progress, with mainstream methods such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) delivering impressive results. However, these approaches often struggle to balance rendering speed and model size, and their optimization-based training can be highly time-consuming. Furthermore, they typically rely on dense observations, often failing to produce satisfactory results under sparse-view conditions. Although feed-forward reconstruction significantly reduces the optimization time of 3DGS, its pixel-aligned formulation generates millions of Gaussians from a single image, severely limiting its practical deployment on mobile devices. To address these limitations, we revisit the Multiplane Image(MPI) representation, which represents scenes using a compact set of planar layers for efficient novel view synthesis. Leveraging recent advances in visual foundation models, we utilize predicted point maps for reliable geometric initialization, followed by differentiable optimization. To address the issues of holes and artifacts in sparsely initialized MPI, we introduce one-step diffusion, which participates in both the differentiable optimization of MPI and the postprocessing of rendering results. Compared with a representative GS-based method, our approach is 30.7% faster and uses only 14.8% of its model size, while achieving competitive synthesis quality on front-view scenarios