Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

📄 arXiv: 2604.08542v1 📥 PDF

作者: Tao Xie, Peishan Yang, Yudong Jin, Yingfeng Cai, Wei Yin, Weiqiang Ren, Qian Zhang, Wei Hua, Sida Peng, Xiaoyang Guo, Xiaowei Zhou

分类: cs.CV

发布日期: 2026-04-09

备注: Project page: https://zju3dv.github.io/scal3r

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Scal3R:用于大规模3D重建的可扩展测试时训练方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 大规模3D重建 长视频序列 全局上下文表示 测试时训练 自监督学习

📋 核心要点

  1. 现有前馈3D重建模型在长序列中面临内存限制和全局上下文信息不足的挑战,导致重建精度和一致性下降。
  2. Scal3R通过引入神经全局上下文表示,压缩并保留长程场景信息,使模型能够利用全局上下文线索提升重建效果。
  3. 实验结果表明,Scal3R在多个大规模数据集上实现了领先的姿态精度和最先进的3D重建精度,同时保持了效率。

📝 摘要(中文)

本文旨在解决从长视频序列中进行大规模3D场景重建的任务。最近的前馈重建模型通过直接从RGB图像回归3D几何体,而无需显式的3D先验或几何约束,展现出良好的效果。然而,由于有限的内存容量和无法有效捕获全局上下文线索,这些方法通常难以在长序列中保持重建精度和一致性。与此相反,人类可以自然地利用对场景的全局理解来指导局部感知。受此启发,我们提出了一种新颖的神经全局上下文表示,可以有效地压缩和保留长程场景信息,使模型能够利用广泛的上下文线索来提高重建精度和一致性。上下文表示通过一组轻量级的神经子网络实现,这些子网络在测试时通过自监督目标快速适应,从而在不产生显著计算开销的情况下大幅增加内存容量。在包括KITTI Odometry和Oxford Spires数据集在内的多个大规模基准测试上的实验表明,我们的方法在处理超大规模场景方面非常有效,在保持效率的同时实现了领先的姿态精度和最先进的3D重建精度。

🔬 方法详解

问题定义:本文旨在解决大规模场景下的3D重建问题,尤其是在长视频序列中,现有方法由于内存限制和缺乏全局上下文信息,难以保持重建精度和一致性。现有方法通常依赖于局部信息,忽略了场景的整体结构和长期依赖关系,导致重建结果出现漂移和不准确。

核心思路:论文的核心思路是引入一种神经全局上下文表示,该表示能够有效地压缩和保留长程场景信息,从而使模型能够利用全局上下文线索来提高重建精度和一致性。通过在测试时进行自监督训练,模型可以快速适应新的场景,并利用全局信息来指导局部重建。

技术框架:Scal3R的整体框架包括一个前馈重建网络和一个神经全局上下文表示模块。前馈重建网络负责从RGB图像中初步估计3D几何体,而神经全局上下文表示模块则负责捕获和维护场景的全局信息。在测试时,神经全局上下文表示模块通过自监督目标进行快速适应,从而提高重建精度和一致性。该框架允许模型在处理长序列时,能够有效地利用全局信息来指导局部重建,从而避免漂移和不准确。

关键创新:该方法最重要的技术创新点在于神经全局上下文表示模块的设计和测试时自监督训练策略。神经全局上下文表示模块能够有效地压缩和保留长程场景信息,而测试时自监督训练策略则允许模型快速适应新的场景,并利用全局信息来指导局部重建。这种方法与现有方法的本质区别在于,它能够显式地建模和利用场景的全局信息,从而提高重建精度和一致性。

关键设计:神经全局上下文表示模块由一组轻量级的神经子网络组成,这些子网络通过自监督目标进行训练。自监督目标包括重建损失和一致性损失,用于鼓励模型学习到能够有效捕获场景全局信息的表示。此外,论文还采用了一种动态内存管理策略,用于控制神经全局上下文表示模块的内存占用,从而保证模型能够处理大规模场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Scal3R在KITTI Odometry和Oxford Spires等大规模数据集上进行了评估,实验结果表明,Scal3R在姿态估计和3D重建精度方面均取得了显著的提升。例如,在KITTI Odometry数据集上,Scal3R的姿态精度超过了现有方法,并且在3D重建精度方面也达到了最先进的水平。此外,Scal3R还具有良好的效率,能够在处理大规模场景时保持较低的计算开销。

🎯 应用场景

Scal3R在自动驾驶、机器人导航、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于构建高精度的3D地图,为自动驾驶车辆提供可靠的环境感知信息。此外,它还可以用于创建逼真的虚拟现实和增强现实体验,使用户能够沉浸在真实的3D环境中。该研究的未来影响在于推动大规模3D重建技术的发展,为各种应用提供更准确、更可靠的3D环境信息。

📄 摘要(原文)

This paper addresses the task of large-scale 3D scene reconstruction from long video sequences. Recent feed-forward reconstruction models have shown promising results by directly regressing 3D geometry from RGB images without explicit 3D priors or geometric constraints. However, these methods often struggle to maintain reconstruction accuracy and consistency over long sequences due to limited memory capacity and the inability to effectively capture global contextual cues. In contrast, humans can naturally exploit the global understanding of the scene to inform local perception. Motivated by this, we propose a novel neural global context representation that efficiently compresses and retains long-range scene information, enabling the model to leverage extensive contextual cues for enhanced reconstruction accuracy and consistency. The context representation is realized through a set of lightweight neural sub-networks that are rapidly adapted during test time via self-supervised objectives, which substantially increases memory capacity without incurring significant computational overhead. The experiments on multiple large-scale benchmarks, including the KITTI Odometry~\cite{Geiger2012CVPR} and Oxford Spires~\cite{tao2025spires} datasets, demonstrate the effectiveness of our approach in handling ultra-large scenes, achieving leading pose accuracy and state-of-the-art 3D reconstruction accuracy while maintaining efficiency. Code is available at https://zju3dv.github.io/scal3r.