ERUPT: Efficient Rendering with Unposed Patch Transformer
作者: Maxim V. Shugaev, Vincent Chen, Maxim Karrenbach, Kyle Ashley, Bridget Kennedy, Naresh P. Cuntoor
分类: cs.CV
发布日期: 2025-03-31
备注: Accepted to CVPR 2025
💡 一句话要点
ERUPT:一种高效的、基于无位姿图像块Transformer的新视角合成方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 无位姿学习 图像块Transformer 高效渲染 场景重建
📋 核心要点
- 现有新视角合成方法依赖于密集的图像数据和精确的相机位姿,限制了其在稀疏或不准确位姿数据集上的应用。
- ERUPT通过引入基于图像块的查询和学习潜在相机位姿,显著降低了计算需求和对精确位姿的依赖,实现了高效的无位姿新视角合成。
- 实验表明,ERUPT在图像质量上优于现有无位姿图像合成方法,同时大幅减少了数据需求和计算量,并在MSVS-1M数据集上进行了验证。
📝 摘要(中文)
本文旨在解决仅使用少量RGB图像在各种场景中进行新视角合成的问题。我们提出了ERUPT(Efficient Rendering with Unposed Patch Transformer),一种先进的场景重建模型,能够使用无位姿图像进行高效的场景渲染。与现有的基于像素的查询不同,我们引入了基于图像块的查询,以减少渲染目标视角所需的计算量。这使得我们的模型在训练和推理过程中都非常高效,能够在商业硬件上以600 fps的速度进行渲染。值得注意的是,我们的模型被设计为使用学习到的潜在相机位姿,这允许使用在具有稀疏或不准确的真实相机位姿的数据集中进行无位姿目标训练。我们证明了我们的方法可以在大型真实世界数据上进行泛化,并引入了一个新的基准数据集(MSVS-1M),用于使用从Mapillary收集的街景图像进行潜在视角合成。与需要密集图像和精确元数据的NeRF和Gaussian Splatting相比,ERUPT可以使用少至五个无位姿输入图像来渲染任意场景的新视角。ERUPT在无位姿图像合成任务中实现了比当前最先进方法更好的渲染图像质量,减少了约95%的标记数据需求,并将计算需求降低了一个数量级,为各种真实世界场景提供了高效的新视角合成。
🔬 方法详解
问题定义:论文旨在解决在只有少量无位姿RGB图像的情况下,如何高效地合成新视角图像的问题。现有方法,如NeRF和Gaussian Splatting,通常需要密集的图像输入和精确的相机位姿信息,这在实际应用中往往难以满足。这些方法计算量大,难以实时渲染,并且对位姿误差敏感。
核心思路:ERUPT的核心思路是通过引入基于图像块的查询来减少计算量,并使用学习到的潜在相机位姿来处理无位姿或位姿不准确的数据。通过将像素级别的查询改为图像块级别的查询,显著降低了需要处理的数据量,从而提高了渲染效率。学习潜在相机位姿使得模型能够从无位姿数据中学习,并对位姿误差具有鲁棒性。
技术框架:ERUPT的整体框架包括以下几个主要模块:1) 图像编码器:将输入的RGB图像编码成特征表示。2) 潜在位姿估计器:学习输入图像的潜在相机位姿。3) 图像块查询模块:根据目标视角和潜在位姿,查询相关的图像块特征。4) 渲染模块:将查询到的图像块特征合成为目标视角图像。整个流程是端到端可训练的,可以同时优化图像编码器、潜在位姿估计器和渲染模块。
关键创新:ERUPT最重要的技术创新点在于引入了基于图像块的查询和学习潜在相机位姿。与现有方法中常用的基于像素的查询相比,图像块查询大大减少了计算量,提高了渲染效率。学习潜在相机位姿使得模型能够处理无位姿或位姿不准确的数据,扩展了其应用范围。
关键设计:ERUPT的关键设计包括:1) 使用Transformer网络进行图像块特征的编码和查询。2) 设计了专门的损失函数来约束潜在相机位姿的学习。3) 采用了多尺度特征融合来提高渲染图像的质量。4) 通过实验确定了合适的图像块大小和网络结构参数,以在计算效率和渲染质量之间取得平衡。
🖼️ 关键图片
📊 实验亮点
ERUPT在MSVS-1M数据集上取得了显著的成果,在无位姿新视角合成任务中,图像质量优于当前最先进的方法。与现有方法相比,ERUPT减少了约95%的标记数据需求,并将计算需求降低了一个数量级,实现了600fps的渲染速度。这些结果表明,ERUPT在效率和图像质量方面都具有显著的优势。
🎯 应用场景
ERUPT在许多领域具有广泛的应用前景,例如:增强现实(AR)、虚拟现实(VR)、机器人导航、自动驾驶、城市建模和游戏开发等。该技术可以用于创建逼真的虚拟环境,并允许用户从任意视角观看场景,而无需精确的相机位姿信息。此外,ERUPT还可以用于从现有的图像数据中重建三维场景,从而为城市规划和文化遗产保护等领域提供支持。
📄 摘要(原文)
This work addresses the problem of novel view synthesis in diverse scenes from small collections of RGB images. We propose ERUPT (Efficient Rendering with Unposed Patch Transformer) a state-of-the-art scene reconstruction model capable of efficient scene rendering using unposed imagery. We introduce patch-based querying, in contrast to existing pixel-based queries, to reduce the compute required to render a target view. This makes our model highly efficient both during training and at inference, capable of rendering at 600 fps on commercial hardware. Notably, our model is designed to use a learned latent camera pose which allows for training using unposed targets in datasets with sparse or inaccurate ground truth camera pose. We show that our approach can generalize on large real-world data and introduce a new benchmark dataset (MSVS-1M) for latent view synthesis using street-view imagery collected from Mapillary. In contrast to NeRF and Gaussian Splatting, which require dense imagery and precise metadata, ERUPT can render novel views of arbitrary scenes with as few as five unposed input images. ERUPT achieves better rendered image quality than current state-of-the-art methods for unposed image synthesis tasks, reduces labeled data requirements by ~95\% and decreases computational requirements by an order of magnitude, providing efficient novel view synthesis for diverse real-world scenes.