Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction
作者: Haoyu Zhang, Zeyu Zhang, Zedong Zhou, Yang Zhao, Hao Tang
分类: cs.CV
发布日期: 2026-05-12
🔗 代码/项目: GITHUB | PROJECT_PAGE
💡 一句话要点
Lite3R:一种模型无关的高效前馈3D重建框架,降低计算开销并保持精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 Transformer 稀疏注意力 量化感知训练 模型压缩 多视点立体视觉 FP8 模型优化
📋 核心要点
- 现有基于Transformer的3D重建模型计算开销大,难以部署,尤其是在高分辨率输入下。
- Lite3R采用模型无关的师生框架,使用稀疏线性注意力代替密集注意力,降低计算成本。
- Lite3R通过FP8感知量化训练,冻结大部分预训练参数,仅训练少量线性层,实现低精度部署。
📝 摘要(中文)
基于Transformer的3D重建已成为一种强大的范例,可以从多视点观测中恢复几何形状和外观,并在具有挑战性的视觉条件下提供强大的性能。随着这些模型扩展到更大的骨干网络和更高分辨率的输入,提高其效率对于实际部署变得越来越重要。然而,现代3D Transformer流水线面临两个相互关联的挑战:密集的multi-view注意力会产生大量的token混合开销,而低精度执行会破坏对几何敏感的表示,并降低深度、姿势和3D一致性。为了解决第一个挑战,我们提出了Lite3R,一个模型无关的师生框架,用稀疏线性注意力代替密集注意力,以保留重要的几何交互,同时降低注意力成本。为了解决第二个挑战,我们引入了一种参数高效的FP8感知量化感知训练(FP8-aware QAT)策略,该策略具有部分注意力蒸馏,冻结了绝大多数预训练骨干网络参数,并且仅训练轻量级的线性分支投影层,从而在保留预训练几何先验的同时实现稳定的低精度部署。我们进一步在BlendedMVS和DTU64上评估了Lite3R在两个代表性骨干网络VGGT和DA3-Large上的性能,表明它在保持整体具有竞争力的重建质量的同时,显着降低了延迟(1.7-2.0倍)和内存使用量(1.9-2.4倍)。这些结果表明,Lite3R为基于Transformer的实际3D重建提供了一种有效的算法-系统协同设计方法。
🔬 方法详解
问题定义:现有基于Transformer的3D重建模型,特别是使用大型backbone和高分辨率输入时,计算复杂度高,内存占用大,难以实际部署。密集的multi-view注意力机制是主要的性能瓶颈,同时,低精度计算容易导致几何信息损失,影响重建质量。
核心思路:Lite3R的核心思路是通过稀疏注意力机制降低计算复杂度,并采用量化感知训练保证低精度计算下的重建质量。利用预训练模型的几何先验知识,并采用师生学习框架,在保证性能的同时,显著降低计算开销。
技术框架:Lite3R是一个模型无关的框架,可以应用于不同的Transformer-based 3D重建模型。其主要包含两个核心模块:1) 稀疏线性注意力(Sparse Linear Attention):用稀疏注意力替代原始的密集注意力,减少计算量。2) FP8感知量化感知训练(FP8-aware QAT):通过量化感知训练,使模型能够在低精度下运行,同时保持重建精度。该训练策略包含部分注意力蒸馏,以保留预训练模型的几何先验知识。
关键创新:Lite3R的关键创新在于将稀疏注意力和量化感知训练相结合,并将其应用于3D重建任务。通过稀疏注意力降低计算复杂度,通过量化感知训练保证低精度下的性能,同时利用预训练模型的几何先验知识。这种算法-系统协同设计方法,使得模型能够在保持重建质量的同时,显著降低计算开销。
关键设计:Lite3R的关键设计包括:1) 稀疏线性注意力的具体实现方式,例如选择哪些token进行交互。2) FP8感知量化感知训练的具体策略,例如如何冻结预训练参数,如何设计线性分支投影层,以及如何进行部分注意力蒸馏。3) 损失函数的设计,例如如何平衡重建精度和计算开销。
🖼️ 关键图片
📊 实验亮点
Lite3R在BlendedMVS和DTU64数据集上进行了评估,结果表明,在VGGT和DA3-Large两个backbone上,Lite3R能够将延迟降低1.7-2.0倍,内存使用量降低1.9-2.4倍,同时保持具有竞争力的重建质量。这些结果表明,Lite3R是一种有效的算法-系统协同设计方法,可以显著提高基于Transformer的3D重建模型的效率。
🎯 应用场景
Lite3R可应用于各种需要高效3D重建的场景,如移动机器人、增强现实、虚拟现实、自动驾驶等。通过降低计算开销和内存占用,Lite3R使得基于Transformer的3D重建模型能够在资源受限的设备上运行,从而扩展了其应用范围。未来,该技术可以进一步应用于大规模场景重建和实时3D建模。
📄 摘要(原文)
Transformer-based 3D reconstruction has emerged as a powerful paradigm for recovering geometry and appearance from multi-view observations, offering strong performance across challenging visual conditions. As these models scale to larger backbones and higher-resolution inputs, improving their efficiency becomes increasingly important for practical deployment. However, modern 3D transformer pipelines face two coupled challenges: dense multi-view attention creates substantial token-mixing overhead, and low-precision execution can destabilize geometry-sensitive representations and degrade depth, pose, and 3D consistency. To address the first challenge, we propose Lite3R, a model-agnostic teacher-student framework that replaces dense attention with Sparse Linear Attention to preserve important geometric interactions while reducing attention cost. To address the second challenge, we introduce a parameter-efficient FP8-aware quantization-aware training (FP8-aware QAT) strategy with partial attention distillation, which freezes the vast majority of pretrained backbone parameters and trains only lightweight linear-branch projection layers, enabling stable low-precision deployment while retaining pretrained geometric priors. We further evaluate Lite3R on two representative backbones, VGGT and DA3-Large, over BlendedMVS and DTU64, showing that it substantially reduces latency (1.7-2.0x) and memory usage (1.9-2.4x) while preserving competitive reconstruction quality overall. These results demonstrate that Lite3R provides an effective algorithm-system co-design approach for practical transformer-based 3D reconstruction. Code: https://github.com/AIGeeksGroup/Lite3R. Website: https://aigeeksgroup.github.io/Lite3R.