Speed3R: Sparse Feed-forward 3D Reconstruction Models

作者: Weining Ren, Xiao Tan, Kai Han

分类: cs.CV, cs.AI

发布日期: 2026-03-09

备注: CVPR 2026 Findings, project page: https://visual-ai.github.io/speed3r/

💡 一句话要点

Speed3R：稀疏前馈3D重建模型，显著提升重建速度

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D重建 前馈网络 稀疏注意力 运动结构恢复 姿态估计

📋 核心要点

现有前馈3D重建模型依赖密集注意力，计算复杂度高，严重限制了推理速度，难以应用于大规模场景。
Speed3R借鉴运动结构恢复思想，利用稀疏关键点进行姿态估计，设计双分支注意力机制，提升效率。
实验表明，Speed3R在保证几何精度的前提下，实现了12.4倍的推理加速，显著降低了计算成本。

📝 摘要（中文）

现有的前馈3D重建模型通过单次推断密集几何信息和相机姿态来加速3D重建，但它们对密集注意力机制的依赖导致二次复杂度，造成了严重的计算瓶颈，极大地限制了推理速度。为了解决这个问题，我们提出了Speed3R，一个端到端可训练的模型，其灵感来源于运动结构恢复（Structure-from-Motion）的核心原则：稀疏的关键点集合足以进行鲁棒的姿态估计。Speed3R采用双分支注意力机制，其中压缩分支创建粗略的上下文先验来指导选择分支，后者仅对信息量最大的图像tokens执行细粒度的注意力。这种策略模仿了传统关键点匹配的效率，在1000视图序列上实现了惊人的12.4倍推理加速，同时引入了最小的、可控的几何精度折衷。在VGGT和$π^3$骨干网络上的标准基准测试中，我们的方法以极低的计算成本提供了高质量的重建，为高效的大规模场景建模铺平了道路。

🔬 方法详解

问题定义：现有前馈3D重建模型依赖于密集注意力机制，导致计算复杂度呈二次方增长，成为推理速度的瓶颈。这使得它们难以应用于需要处理大量图像的大规模场景重建任务。现有方法的痛点在于计算效率低下，限制了其可扩展性。

核心思路：Speed3R的核心思路是借鉴运动结构恢复（Structure-from-Motion）的思想，即利用图像中的稀疏关键点进行姿态估计和场景重建。通过只关注图像中最具信息量的部分，可以显著减少计算量，提高推理速度。

技术框架：Speed3R采用双分支注意力机制。首先，压缩分支对输入图像进行全局上下文建模，生成一个粗略的先验信息。然后，选择分支利用这个先验信息，从图像tokens中选择出最具代表性的关键点。最后，选择分支只对这些关键点进行细粒度的注意力计算，从而降低计算复杂度。整个框架是端到端可训练的。

关键创新：Speed3R的关键创新在于其双分支注意力机制，它模仿了传统关键点匹配的效率。与现有方法不同，Speed3R不是对所有图像tokens进行密集注意力计算，而是通过选择分支聚焦于最informative的tokens，从而显著降低了计算成本。这种稀疏注意力机制是Speed3R实现高速重建的关键。

关键设计：Speed3R的关键设计包括：1) 压缩分支的网络结构，用于生成有效的上下文先验；2) 选择分支的采样策略，用于选择最具代表性的关键点；3) 注意力机制的具体实现，例如使用Transformer结构；4) 损失函数的设计，用于优化姿态估计和几何重建的精度。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

Speed3R在标准基准测试中表现出色，在1000视图序列上实现了12.4倍的推理加速，同时保持了较高的几何精度。与现有方法相比，Speed3R在计算效率方面取得了显著提升，为大规模场景建模提供了更高效的解决方案。实验结果表明，Speed3R在VGGT和$π^3$骨干网络上均表现良好。

🎯 应用场景

Speed3R具有广泛的应用前景，包括：1) 自动驾驶：快速重建周围环境，提高感知能力；2) 机器人导航：实时构建地图，辅助路径规划；3) 虚拟现实/增强现实：快速生成3D模型，提升用户体验；4) 大规模场景建模：高效处理海量图像数据，构建高精度3D模型。该研究的实际价值在于降低了3D重建的计算成本，为大规模场景建模提供了新的解决方案。

📄 摘要（原文）

While recent feed-forward 3D reconstruction models accelerate 3D reconstruction by jointly inferring dense geometry and camera poses in a single pass, their reliance on dense attention imposes a quadratic complexity, creating a prohibitive computational bottleneck that severely limits inference speed. To resolve this, we introduce Speed3R, an end-to-end trainable model inspired by the core principle of Structure-from-Motion: that a sparse set of keypoints is sufficient for robust pose estimation. Speed3R features a dual-branch attention mechanism where a compression branch creates a coarse contextual prior to guide a selection branch, which performs fine-grained attention only on the most informative image tokens. This strategy mimics the efficiency of traditional keypoint matching, achieving a remarkable 12.4x inference speedup on 1000-view sequences, while introducing a minimal, controlled trade-off in geometric accuracy. Validated on standard benchmarks with both VGGT and $π^3$ backbones, our method delivers high-quality reconstructions at a fraction of computational cost, paving the way for efficient large-scale scene modeling.

Speed3R: Sparse Feed-forward 3D Reconstruction Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理