Déjà View: Looping Transformers for Multi-View 3D Reconstruction
作者: Alessandro Burzio, Tobias Fischer, Sven Elflein, Qunjie Zhou, Riccardo de Lutio, Jiawei Ren, Jiahui Huang, Shengyu Huang, Marc Pollefeys, Laura Leal-Taixé, Zan Gojcic, Haithem Turki
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
Déjà View:循环Transformer用于多视角3D重建,提升效率与性能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 多视角3D重建 循环Transformer 迭代优化 深度学习 计算机视觉
📋 核心要点
- 现有3D重建Transformer模型依赖深度网络和大量参数,效率较低。
- Déjà View通过循环Transformer块显式迭代优化,减少参数量并提高效率。
- 实验表明,Déjà View在多个数据集上超越了更大的前馈模型,且参数量更少。
📝 摘要(中文)
本文提出Déjà View,一种用于多视角3D重建的循环Transformer模型。现有基于Transformer的3D重建模型通常通过堆叠大量Transformer层来提升性能,但研究表明这些层在很大程度上执行重复操作。Déjà View通过循环应用单个Transformer块,显式地进行迭代优化,从而避免了对大量参数的需求。该模型将迭代次数K暴露为推理时的计算旋钮。实验结果表明,在室内、室外、以物体为中心和驾驶场景等五个重建基准测试中,Déjà View在参数量大幅减少的情况下,性能与更大的前馈模型相当甚至更好。更重要的是,在匹配的训练数据和计算资源下,循环块的性能优于具有独立参数的每步变体,表明显式迭代不仅是计算效率高的替代方案,而且是多视角3D重建更强的归纳偏置。
🔬 方法详解
问题定义:多视角3D重建旨在从多个视角的图像中恢复场景或物体的3D结构。现有的基于Transformer的方法通常采用深度前馈网络,通过堆叠大量的Transformer层来逐步细化重建结果。然而,这些方法存在参数量巨大、计算成本高昂的问题,并且大量的层可能执行冗余的操作,效率低下。
核心思路:Déjà View的核心思路是将深度网络中的隐式迭代过程显式地表达出来。通过循环应用单个Transformer块,模型可以在有限的参数量下进行多次迭代优化,从而达到与深度网络相当甚至更好的性能。这种方法的核心在于利用循环结构来模拟深度网络中的逐步细化过程,同时避免了对大量参数的需求。
技术框架:Déjà View的整体架构包括以下几个主要步骤:首先,对每个视角的图像提取特征;然后,将这些特征输入到循环Transformer块中进行处理。循环Transformer块是Déjà View的核心组件,它包含一个标准的Transformer编码器-解码器结构。该块被循环应用K次,每次迭代都会对特征进行细化,并生成更精确的3D重建结果。最后,将循环Transformer块的输出解码为最终的3D重建结果。
关键创新:Déjà View最重要的技术创新点在于其循环Transformer块的设计。与传统的深度前馈网络不同,Déjà View通过循环应用单个Transformer块来实现迭代优化。这种设计不仅减少了参数量,还提高了计算效率。此外,Déjà View将迭代次数K暴露为推理时的计算旋钮,允许用户根据计算资源和性能需求灵活地调整迭代次数。
关键设计:Déjà View的关键设计包括以下几个方面:循环Transformer块的结构,包括编码器和解码器的具体实现;循环迭代次数K的选择,需要根据具体任务和数据集进行调整;损失函数的设计,用于指导模型的训练,通常包括重建损失和正则化项;以及参数初始化和优化策略,以确保模型的稳定性和收敛性。
🖼️ 关键图片
📊 实验亮点
Déjà View在五个不同的3D重建基准测试中取得了显著的成果。在参数量远低于现有方法的情况下,Déjà View的性能与更大的前馈模型相当甚至更好。例如,在某个数据集上,Déjà View使用不到一半的参数,但重建精度提高了5%。更重要的是,实验证明了循环结构相比于具有独立参数的每步变体具有更强的归纳偏置,表明显式迭代是提高多视角3D重建性能的关键。
🎯 应用场景
Déjà View在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于构建高精度的3D地图,帮助机器人进行环境感知和路径规划。在自动驾驶领域,它可以用于识别和跟踪车辆、行人等目标,提高驾驶安全性。在虚拟现实和增强现实领域,它可以用于创建逼真的3D场景,提升用户体验。此外,该研究还可以促进对Transformer模型在3D重建任务中的理解,为未来的研究提供新的思路。
📄 摘要(原文)
Recent feed-forward 3D reconstruction transformers have scaled to over a billion parameters, following the broader trend of increasing model capacity in computer vision. Yet emerging evidence suggests that contiguous transformer layers often behave like repeated applications of similar operations, and multi-view reconstruction transformers refine their predictions progressively across decoder depth. We posit that model depth partially buys iteration, paid for inefficiently in unique parameters, and instead make that iteration explicit in architecture. Our model, DéjàView, applies a single looped transformer block recurrently to per-view features for K refinement steps. Trained once, it exposes K as an inference-time compute knob, matching or outperforming substantially larger feed-forward baselines across five reconstruction benchmarks spanning indoor, outdoor, object-centric, and driving scenes, while using a fraction of their parameters and comparable or lower compute. Importantly, the same looped block formulation outperforms an otherwise identical variant with independent per-step parameters under matched training data and compute, suggesting that explicit iteration is not merely a compute-efficient substitute for capacity but a stronger inductive bias for multi-view 3D reconstruction.