Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

作者: Haoyu Zhang, Zeyu Zhang, Zedong Zhou, Yang Zhao, Hao Tang

分类: cs.CV

发布日期: 2026-05-12

🔗 代码/项目: GITHUB | PROJECT_PAGE

💡 一句话要点

Lite3R：一种模型无关的高效前馈3D重建框架，降低计算开销并保持精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D重建 Transformer 稀疏注意力 量化感知训练 模型压缩 多视点立体视觉 FP8 模型优化

📋 核心要点

现有基于Transformer的3D重建模型计算开销大，难以部署，尤其是在高分辨率输入下。
Lite3R采用模型无关的师生框架，使用稀疏线性注意力代替密集注意力，降低计算成本。
Lite3R通过FP8感知量化训练，冻结大部分预训练参数，仅训练少量线性层，实现低精度部署。

📝 摘要（中文）

基于Transformer的3D重建已成为一种强大的范例，可以从多视点观测中恢复几何形状和外观，并在具有挑战性的视觉条件下提供强大的性能。随着这些模型扩展到更大的骨干网络和更高分辨率的输入，提高其效率对于实际部署变得越来越重要。然而，现代3D Transformer流水线面临两个相互关联的挑战：密集的multi-view注意力会产生大量的token混合开销，而低精度执行会破坏对几何敏感的表示，并降低深度、姿势和3D一致性。为了解决第一个挑战，我们提出了Lite3R，一个模型无关的师生框架，用稀疏线性注意力代替密集注意力，以保留重要的几何交互，同时降低注意力成本。为了解决第二个挑战，我们引入了一种参数高效的FP8感知量化感知训练（FP8-aware QAT）策略，该策略具有部分注意力蒸馏，冻结了绝大多数预训练骨干网络参数，并且仅训练轻量级的线性分支投影层，从而在保留预训练几何先验的同时实现稳定的低精度部署。我们进一步在BlendedMVS和DTU64上评估了Lite3R在两个代表性骨干网络VGGT和DA3-Large上的性能，表明它在保持整体具有竞争力的重建质量的同时，显着降低了延迟（1.7-2.0倍）和内存使用量（1.9-2.4倍）。这些结果表明，Lite3R为基于Transformer的实际3D重建提供了一种有效的算法-系统协同设计方法。

🔬 方法详解

问题定义：现有基于Transformer的3D重建模型，特别是使用大型backbone和高分辨率输入时，计算复杂度高，内存占用大，难以实际部署。密集的multi-view注意力机制是主要的性能瓶颈，同时，低精度计算容易导致几何信息损失，影响重建质量。

核心思路：Lite3R的核心思路是通过稀疏注意力机制降低计算复杂度，并采用量化感知训练保证低精度计算下的重建质量。利用预训练模型的几何先验知识，并采用师生学习框架，在保证性能的同时，显著降低计算开销。

技术框架：Lite3R是一个模型无关的框架，可以应用于不同的Transformer-based 3D重建模型。其主要包含两个核心模块：1) 稀疏线性注意力（Sparse Linear Attention）：用稀疏注意力替代原始的密集注意力，减少计算量。2) FP8感知量化感知训练（FP8-aware QAT）：通过量化感知训练，使模型能够在低精度下运行，同时保持重建精度。该训练策略包含部分注意力蒸馏，以保留预训练模型的几何先验知识。

关键创新：Lite3R的关键创新在于将稀疏注意力和量化感知训练相结合，并将其应用于3D重建任务。通过稀疏注意力降低计算复杂度，通过量化感知训练保证低精度下的性能，同时利用预训练模型的几何先验知识。这种算法-系统协同设计方法，使得模型能够在保持重建质量的同时，显著降低计算开销。

关键设计：Lite3R的关键设计包括：1) 稀疏线性注意力的具体实现方式，例如选择哪些token进行交互。2) FP8感知量化感知训练的具体策略，例如如何冻结预训练参数，如何设计线性分支投影层，以及如何进行部分注意力蒸馏。3) 损失函数的设计，例如如何平衡重建精度和计算开销。

🖼️ 关键图片

📊 实验亮点

Lite3R在BlendedMVS和DTU64数据集上进行了评估，结果表明，在VGGT和DA3-Large两个backbone上，Lite3R能够将延迟降低1.7-2.0倍，内存使用量降低1.9-2.4倍，同时保持具有竞争力的重建质量。这些结果表明，Lite3R是一种有效的算法-系统协同设计方法，可以显著提高基于Transformer的3D重建模型的效率。

🎯 应用场景

Lite3R可应用于各种需要高效3D重建的场景，如移动机器人、增强现实、虚拟现实、自动驾驶等。通过降低计算开销和内存占用，Lite3R使得基于Transformer的3D重建模型能够在资源受限的设备上运行，从而扩展了其应用范围。未来，该技术可以进一步应用于大规模场景重建和实时3D建模。

📄 摘要（原文）

Transformer-based 3D reconstruction has emerged as a powerful paradigm for recovering geometry and appearance from multi-view observations, offering strong performance across challenging visual conditions. As these models scale to larger backbones and higher-resolution inputs, improving their efficiency becomes increasingly important for practical deployment. However, modern 3D transformer pipelines face two coupled challenges: dense multi-view attention creates substantial token-mixing overhead, and low-precision execution can destabilize geometry-sensitive representations and degrade depth, pose, and 3D consistency. To address the first challenge, we propose Lite3R, a model-agnostic teacher-student framework that replaces dense attention with Sparse Linear Attention to preserve important geometric interactions while reducing attention cost. To address the second challenge, we introduce a parameter-efficient FP8-aware quantization-aware training (FP8-aware QAT) strategy with partial attention distillation, which freezes the vast majority of pretrained backbone parameters and trains only lightweight linear-branch projection layers, enabling stable low-precision deployment while retaining pretrained geometric priors. We further evaluate Lite3R on two representative backbones, VGGT and DA3-Large, over BlendedMVS and DTU64, showing that it substantially reduces latency (1.7-2.0x) and memory usage (1.9-2.4x) while preserving competitive reconstruction quality overall. These results demonstrate that Lite3R provides an effective algorithm-system co-design approach for practical transformer-based 3D reconstruction. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.

Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理