LVT: Large-Scale Scene Reconstruction via Local View Transformers
作者: Tooba Imtiaz, Lucy Chai, Kathryn Heal, Xuan Luo, Jungyeon Park, Jennifer Dy, John Flynn
分类: cs.CV, cs.LG
发布日期: 2025-09-29
备注: SIGGRAPH Asia 2025 camera-ready version; project page https://toobaimt.github.io/lvt/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出局部视图Transformer(LVT)用于大规模场景重建和新视角合成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 大规模场景重建 新视角合成 局部视图Transformer 3D高斯Splats Transformer 位置编码 相对几何变换
📋 核心要点
- 现有Transformer模型在处理大规模3D场景时,由于其二次复杂度,面临着计算瓶颈和扩展性挑战。
- LVT通过仅关注局部邻域内的视图信息,并结合相对几何变换的位置编码,有效降低了计算复杂度。
- 该方法能够重建任意大的高分辨率场景,并在新视角合成任务中取得了良好的效果。
📝 摘要(中文)
大型Transformer模型已成为3D视觉和新视角合成的强大工具。然而,标准Transformer的二次复杂度使其难以将这些方法扩展到大型场景。为了解决这个挑战,我们提出了局部视图Transformer(LVT),这是一种大规模场景重建和新视角合成架构,避免了二次注意力操作的需求。受到空间上相邻的视图比远距离视图提供更多关于局部场景组成信息的启发,我们的模型处理每个视图周围局部邻域中的所有信息。为了关注附近视图中的tokens,我们利用了一种新颖的位置编码,该编码以查询视图和附近视图之间的相对几何变换为条件。我们将模型的输出解码为包含颜色和不透明度视图依赖性的3D高斯Splats场景表示。总而言之,局部视图Transformer能够在单个前向传递中重建任意大的高分辨率场景。
🔬 方法详解
问题定义:论文旨在解决大规模场景重建和新视角合成问题。现有基于Transformer的方法由于其二次计算复杂度,难以扩展到大型场景,成为性能瓶颈。因此,需要一种能够有效处理大规模场景,同时保持较高重建质量的方法。
核心思路:论文的核心思路是利用局部视图之间的相关性。作者观察到,空间上相邻的视图比远距离视图包含更多关于局部场景的信息。因此,模型只需要关注每个视图周围的局部邻域,从而避免全局注意力机制带来的高计算复杂度。
技术框架:LVT的整体框架包括以下几个主要步骤:1)输入多视角图像及其对应的相机位姿;2)对于每个视图,选取其局部邻域内的其他视图;3)利用相对几何变换对局部视图进行位置编码;4)使用Transformer网络处理局部视图信息,生成特征表示;5)将特征表示解码为3D高斯Splats场景表示,包括颜色和不透明度等属性。
关键创新:LVT的关键创新在于局部注意力机制和相对几何变换的位置编码。局部注意力机制通过限制注意力范围,显著降低了计算复杂度。相对几何变换的位置编码能够有效地捕捉局部视图之间的空间关系,从而提高重建质量。
关键设计:LVT使用Transformer网络作为其核心模块,并针对局部视图处理进行了优化。位置编码采用相对几何变换,具体实现方式未知。损失函数可能包括重建损失和正则化项,以保证重建质量和场景的平滑性。3D高斯Splats场景表示用于存储场景的几何和外观信息。
🖼️ 关键图片
📊 实验亮点
论文提出的LVT方法能够在单个前向传递中重建任意大的高分辨率场景,避免了传统Transformer的二次复杂度问题。实验结果表明,LVT在重建质量和计算效率方面都优于现有方法,具体性能数据未知。项目主页提供了结果和交互式演示,展示了LVT的实际效果。
🎯 应用场景
LVT具有广泛的应用前景,包括城市建模、自动驾驶、虚拟现实、增强现实等领域。它可以用于创建大规模、高精度的3D场景模型,为各种应用提供基础数据。此外,LVT还可以用于新视角合成,生成任意视角的图像,为用户提供更加沉浸式的体验。未来,LVT有望成为3D视觉领域的重要技术。
📄 摘要(原文)
Large transformer models are proving to be a powerful tool for 3D vision and novel view synthesis. However, the standard Transformer's well-known quadratic complexity makes it difficult to scale these methods to large scenes. To address this challenge, we propose the Local View Transformer (LVT), a large-scale scene reconstruction and novel view synthesis architecture that circumvents the need for the quadratic attention operation. Motivated by the insight that spatially nearby views provide more useful signal about the local scene composition than distant views, our model processes all information in a local neighborhood around each view. To attend to tokens in nearby views, we leverage a novel positional encoding that conditions on the relative geometric transformation between the query and nearby views. We decode the output of our model into a 3D Gaussian Splat scene representation that includes both color and opacity view-dependence. Taken together, the Local View Transformer enables reconstruction of arbitrarily large, high-resolution scenes in a single forward pass. See our project page for results and interactive demos https://toobaimt.github.io/lvt/.