Déjà View: Looping Transformers for Multi-View 3D Reconstruction

📄 arXiv: 2605.30215v2 📥 PDF

作者: Alessandro Burzio, Tobias Fischer, Sven Elflein, Qunjie Zhou, Riccardo de Lutio, Jiawei Ren, Jiahui Huang, Shengyu Huang, Marc Pollefeys, Laura Leal-Taixé, Zan Gojcic, Haithem Turki

分类: cs.CV

发布日期: 2026-05-28 (更新: 2026-05-29)

备注: Project Page: https://research.nvidia.com/labs/dvl/projects/dvlt


💡 一句话要点

Déjà View:循环Transformer用于多视角3D重建,提升效率与性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角3D重建 循环Transformer 迭代优化 深度学习 计算机视觉

📋 核心要点

  1. 现有3D重建Transformer模型依赖增加模型深度来提升性能,但效率较低,参数冗余。
  2. Déjà View通过循环应用单个Transformer块,显式地进行迭代优化,提升模型效率。
  3. 实验表明,Déjà View在多个数据集上超越了更大的前馈模型,同时显著减少了参数量。

📝 摘要(中文)

本文提出Déjà View,一种用于多视角3D重建的循环Transformer模型。现有基于Transformer的3D重建模型通常通过增加模型深度来提升性能,但研究表明,连续的Transformer层往往执行相似的操作,且多视角重建Transformer在解码器深度上逐步细化预测。Déjà View的核心思想是将迭代过程显式地融入架构中,通过循环应用单个Transformer块来逐步细化每个视角的特征。该模型将迭代次数K暴露为推理时的计算旋钮。实验结果表明,在五个涵盖室内、室外、以物体为中心和驾驶场景的重建基准测试中,Déjà View在参数量大幅减少的情况下,匹配甚至超越了更大的前馈基线模型,且计算量相当或更低。更重要的是,在匹配的训练数据和计算量下,相同的循环块结构优于具有独立参数的每步变体,表明显式迭代不仅是计算效率高的容量替代品,而且是多视角3D重建更强的归纳偏置。

🔬 方法详解

问题定义:多视角3D重建旨在从多个视角的图像中恢复场景的三维结构。现有基于Transformer的方法通常采用深度前馈网络,通过堆叠大量的Transformer层来逐步细化重建结果。然而,这些方法存在参数冗余和计算效率低下的问题,因为连续的Transformer层可能执行相似的操作,导致模型容量的利用率不高。

核心思路:Déjà View的核心思路是将迭代细化的过程显式地融入到模型架构中。不同于堆叠多个独立的Transformer层,Déjà View采用单个Transformer块,并将其循环应用多次,每次循环都对前一次的重建结果进行细化。这种设计使得模型能够通过显式的迭代来逐步提升重建质量,同时避免了参数冗余。

技术框架:Déjà View的整体架构包括以下几个主要步骤:1) 对每个视角的图像提取特征;2) 将提取的特征输入到循环Transformer块中;3) 循环Transformer块对特征进行K次迭代细化;4) 将细化后的特征用于重建三维结构。循环Transformer块是Déjà View的核心组件,它由一个标准的Transformer编码器-解码器结构组成,但其参数在每次循环中共享。

关键创新:Déjà View最重要的技术创新点在于其循环Transformer块的设计。通过循环应用单个Transformer块,Déjà View能够以更少的参数实现与深度前馈网络相当甚至更好的性能。此外,Déjà View将迭代次数K暴露为推理时的计算旋钮,允许用户根据计算资源和性能需求灵活调整模型的计算量。

关键设计:Déjà View的关键设计包括:1) 循环Transformer块的结构,采用标准的Transformer编码器-解码器结构;2) 迭代次数K的选择,需要根据具体任务和数据集进行调整;3) 损失函数的设计,通常采用重建损失和正则化损失的组合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Déjà View在五个不同的3D重建基准测试中,包括室内、室外、以物体为中心和驾驶场景,都取得了优异的性能。与参数量更大的前馈基线模型相比,Déjà View在参数量大幅减少的情况下,实现了相当甚至更好的重建精度。例如,在某些数据集上,Déjà View仅使用基线模型的一小部分参数,就达到了相同的性能水平。

🎯 应用场景

Déjà View在多视角3D重建领域具有广泛的应用前景,例如:自动驾驶中的环境感知、机器人导航、虚拟现实和增强现实、以及三维建模等。该模型能够以更高的效率和更低的计算成本实现高质量的三维重建,有望推动相关领域的发展。

📄 摘要(原文)

Recent feed-forward 3D reconstruction transformers have scaled to over a billion parameters, following the broader trend of increasing model capacity in computer vision. Yet emerging evidence suggests that contiguous transformer layers often behave like repeated applications of similar operations, and multi-view reconstruction transformers refine their predictions progressively across decoder depth. We posit that model depth partially buys iteration, paid for inefficiently in unique parameters, and instead make that iteration explicit in architecture. Our model, DéjàView, applies a single looped transformer block recurrently to per-view features for K refinement steps. Trained once, it exposes K as an inference-time compute knob, matching or outperforming substantially larger feed-forward baselines across five reconstruction benchmarks spanning indoor, outdoor, object-centric, and driving scenes, while using a fraction of their parameters and comparable or lower compute. Importantly, the same looped block formulation outperforms an otherwise identical variant with independent per-step parameters under matched training data and compute, suggesting that explicit iteration is not merely a compute-efficient substitute for capacity but a stronger inductive bias for multi-view 3D reconstruction.