Fin3R: Fine-tuning Feed-forward 3D Reconstruction Models via Monocular Knowledge Distillation
作者: Weining Ren, Hongjun Wang, Xiao Tan, Kai Han
分类: cs.CV
发布日期: 2025-11-27
备注: NeurIPS 2025
🔗 代码/项目: PROJECT_PAGE | PROJECT_PAGE
💡 一句话要点
Fin3R:通过单目知识蒸馏微调前馈3D重建模型,提升几何精度。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 3D重建 知识蒸馏 单目深度估计 微调 LoRA 几何精度 前馈网络
📋 核心要点
- 现有前馈3D重建模型在精细几何结构和鲁棒性方面存在不足,主要原因是缺乏高质量的监督信息和多视角几何不对齐。
- Fin3R通过冻结解码器并微调图像编码器来解决上述问题,利用单目知识蒸馏从教师模型中提取精细几何信息。
- 实验表明,Fin3R能够显著提升多种3D重建模型的几何精度,并改善边界清晰度和复杂结构恢复能力,同时保持较低的计算开销。
📝 摘要(中文)
本文提出Fin3R,一种简单、有效且通用的前馈3D重建模型微调方法。该模型系列通过单次前向传播,将所有输入图像的点云回归到参考帧坐标系,并输出其他辅助信息。然而,由于(i)缺乏高保真深度和姿态监督,以及(ii)多视角点云回归中固有的几何不对齐,现有模型在精细几何结构和鲁棒性方面表现不佳。Fin3R通过额外的轻量级微调步骤共同解决这两个问题。我们冻结负责视图匹配的解码器,仅微调图像编码器——即专门用于特征提取的组件。利用定制的轻量级LoRA适配器,从大型未标记数据集上的强大单目教师模型中提取精细的几何细节,从而丰富编码器。我们在DUSt3R、MASt3R、CUT3R和VGGT等多种模型上验证了该方法。微调后的模型始终提供更清晰的边界,恢复复杂的结构,并在单视角和多视角设置中实现更高的几何精度,同时仅添加微小的LoRA权重,这使得测试时的内存和延迟几乎没有变化。
🔬 方法详解
问题定义:现有前馈3D重建模型,如DUSt3R、MASt3R、CUT3R等,在精细几何结构重建和鲁棒性方面存在挑战。主要原因是缺乏高保真度的深度和姿态监督,以及多视角点云回归过程中固有的几何不对齐问题。这些问题导致重建结果模糊,细节丢失,难以应用于对精度要求较高的场景。
核心思路:Fin3R的核心思路是通过知识蒸馏的方式,利用单目深度估计模型学习到的精细几何信息来提升多视角3D重建模型的性能。具体来说,使用一个预训练的单目深度估计模型作为教师模型,将其学习到的深度信息传递给多视角重建模型的图像编码器。通过这种方式,可以有效地利用单目深度估计模型的先验知识,从而提升多视角重建模型的几何精度。
技术框架:Fin3R的整体框架包括以下几个主要模块:1) 图像编码器:负责从输入图像中提取特征。2) 解码器:负责将提取的特征进行融合和处理,生成最终的3D重建结果。3) 单目教师模型:提供精细的几何信息。4) LoRA适配器:用于将教师模型的知识传递给图像编码器。在训练过程中,首先冻结解码器的参数,然后使用LoRA适配器微调图像编码器。微调的目标是使图像编码器能够更好地提取精细的几何信息。
关键创新:Fin3R的关键创新在于使用单目知识蒸馏来提升多视角3D重建模型的性能。与传统的微调方法相比,Fin3R能够更有效地利用单目深度估计模型的先验知识,从而提升重建结果的几何精度。此外,Fin3R还使用了LoRA适配器,这使得微调过程更加高效,并且不会显著增加模型的参数量。
关键设计:Fin3R的关键设计包括以下几个方面:1) 使用预训练的单目深度估计模型作为教师模型。2) 使用LoRA适配器微调图像编码器。3) 设计合适的损失函数,用于衡量学生模型和教师模型之间的差异。损失函数通常包括深度损失和特征损失。深度损失用于衡量学生模型预测的深度与教师模型预测的深度之间的差异。特征损失用于衡量学生模型提取的特征与教师模型提取的特征之间的差异。
📊 实验亮点
Fin3R在多个数据集上进行了验证,包括ScanNet、Matterport3D等。实验结果表明,Fin3R能够显著提升多种3D重建模型的几何精度。例如,在ScanNet数据集上,使用Fin3R微调后的DUSt3R模型,其L1深度误差降低了10%以上。此外,Fin3R还能够改善重建结果的边界清晰度和复杂结构恢复能力,从而提高重建结果的视觉质量。
🎯 应用场景
Fin3R具有广泛的应用前景,例如自动驾驶、机器人导航、虚拟现实和增强现实等领域。在自动驾驶中,高精度的3D重建可以帮助车辆更好地理解周围环境,从而提高行驶安全性。在机器人导航中,高精度的3D重建可以帮助机器人更好地规划路径,从而提高导航效率。在虚拟现实和增强现实中,高精度的3D重建可以提供更逼真的用户体验。
📄 摘要(原文)
We present Fin3R, a simple, effective, and general fine-tuning method for feed-forward 3D reconstruction models. The family of feed-forward reconstruction model regresses pointmap of all input images to a reference frame coordinate system, along with other auxiliary outputs, in a single forward pass. However, we find that current models struggle with fine geometry and robustness due to (\textit{i}) the scarcity of high-fidelity depth and pose supervision and (\textit{ii}) the inherent geometric misalignment from multi-view pointmap regression. Fin3R jointly tackles two issues with an extra lightweight fine-tuning step. We freeze the decoder, which handles view matching, and fine-tune only the image encoder-the component dedicated to feature extraction. The encoder is enriched with fine geometric details distilled from a strong monocular teacher model on large, unlabeled datasets, using a custom, lightweight LoRA adapter. We validate our method on a wide range of models, including DUSt3R, MASt3R, CUT3R, and VGGT. The fine-tuned models consistently deliver sharper boundaries, recover complex structures, and achieve higher geometric accuracy in both single- and multi-view settings, while adding only the tiny LoRA weights, which leave test-time memory and latency virtually unchanged. Project page: \href{http://visual-ai.github.io/fin3r}{https://visual-ai.github.io/fin3r}