Speed3R: Sparse Feed-forward 3D Reconstruction Models

📄 arXiv: 2603.08055v1 📥 PDF

作者: Weining Ren, Xiao Tan, Kai Han

分类: cs.CV, cs.AI

发布日期: 2026-03-09

备注: CVPR 2026 Findings, project page: https://visual-ai.github.io/speed3r/


💡 一句话要点

Speed3R:稀疏前馈3D重建模型,显著提升重建速度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 前馈网络 稀疏注意力 运动结构恢复 姿态估计

📋 核心要点

  1. 现有前馈3D重建模型依赖密集注意力,计算复杂度高,严重限制了推理速度,难以应用于大规模场景。
  2. Speed3R借鉴运动结构恢复思想,利用稀疏关键点进行姿态估计,设计双分支注意力机制,提升效率。
  3. 实验表明,Speed3R在保证几何精度的前提下,实现了12.4倍的推理加速,显著降低了计算成本。

📝 摘要(中文)

现有的前馈3D重建模型通过单次推断密集几何信息和相机姿态来加速3D重建,但它们对密集注意力机制的依赖导致二次复杂度,造成了严重的计算瓶颈,极大地限制了推理速度。为了解决这个问题,我们提出了Speed3R,一个端到端可训练的模型,其灵感来源于运动结构恢复(Structure-from-Motion)的核心原则:稀疏的关键点集合足以进行鲁棒的姿态估计。Speed3R采用双分支注意力机制,其中压缩分支创建粗略的上下文先验来指导选择分支,后者仅对信息量最大的图像tokens执行细粒度的注意力。这种策略模仿了传统关键点匹配的效率,在1000视图序列上实现了惊人的12.4倍推理加速,同时引入了最小的、可控的几何精度折衷。在VGGT和$π^3$骨干网络上的标准基准测试中,我们的方法以极低的计算成本提供了高质量的重建,为高效的大规模场景建模铺平了道路。

🔬 方法详解

问题定义:现有前馈3D重建模型依赖于密集注意力机制,导致计算复杂度呈二次方增长,成为推理速度的瓶颈。这使得它们难以应用于需要处理大量图像的大规模场景重建任务。现有方法的痛点在于计算效率低下,限制了其可扩展性。

核心思路:Speed3R的核心思路是借鉴运动结构恢复(Structure-from-Motion)的思想,即利用图像中的稀疏关键点进行姿态估计和场景重建。通过只关注图像中最具信息量的部分,可以显著减少计算量,提高推理速度。

技术框架:Speed3R采用双分支注意力机制。首先,压缩分支对输入图像进行全局上下文建模,生成一个粗略的先验信息。然后,选择分支利用这个先验信息,从图像tokens中选择出最具代表性的关键点。最后,选择分支只对这些关键点进行细粒度的注意力计算,从而降低计算复杂度。整个框架是端到端可训练的。

关键创新:Speed3R的关键创新在于其双分支注意力机制,它模仿了传统关键点匹配的效率。与现有方法不同,Speed3R不是对所有图像tokens进行密集注意力计算,而是通过选择分支聚焦于最informative的tokens,从而显著降低了计算成本。这种稀疏注意力机制是Speed3R实现高速重建的关键。

关键设计:Speed3R的关键设计包括:1) 压缩分支的网络结构,用于生成有效的上下文先验;2) 选择分支的采样策略,用于选择最具代表性的关键点;3) 注意力机制的具体实现,例如使用Transformer结构;4) 损失函数的设计,用于优化姿态估计和几何重建的精度。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Speed3R在标准基准测试中表现出色,在1000视图序列上实现了12.4倍的推理加速,同时保持了较高的几何精度。与现有方法相比,Speed3R在计算效率方面取得了显著提升,为大规模场景建模提供了更高效的解决方案。实验结果表明,Speed3R在VGGT和$π^3$骨干网络上均表现良好。

🎯 应用场景

Speed3R具有广泛的应用前景,包括:1) 自动驾驶:快速重建周围环境,提高感知能力;2) 机器人导航:实时构建地图,辅助路径规划;3) 虚拟现实/增强现实:快速生成3D模型,提升用户体验;4) 大规模场景建模:高效处理海量图像数据,构建高精度3D模型。该研究的实际价值在于降低了3D重建的计算成本,为大规模场景建模提供了新的解决方案。

📄 摘要(原文)

While recent feed-forward 3D reconstruction models accelerate 3D reconstruction by jointly inferring dense geometry and camera poses in a single pass, their reliance on dense attention imposes a quadratic complexity, creating a prohibitive computational bottleneck that severely limits inference speed. To resolve this, we introduce Speed3R, an end-to-end trainable model inspired by the core principle of Structure-from-Motion: that a sparse set of keypoints is sufficient for robust pose estimation. Speed3R features a dual-branch attention mechanism where a compression branch creates a coarse contextual prior to guide a selection branch, which performs fine-grained attention only on the most informative image tokens. This strategy mimics the efficiency of traditional keypoint matching, achieving a remarkable 12.4x inference speedup on 1000-view sequences, while introducing a minimal, controlled trade-off in geometric accuracy. Validated on standard benchmarks with both VGGT and $π^3$ backbones, our method delivers high-quality reconstructions at a fraction of computational cost, paving the way for efficient large-scale scene modeling.