Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
作者: Yuhang Dai, Xingyi Yang
分类: cs.CV
发布日期: 2026-04-15
备注: Code is available at https://github.com/hiteacherIamhumble/Free-Geometry
🔗 代码/项目: GITHUB
💡 一句话要点
提出Free Geometry,通过自监督微调提升单目3D重建精度
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D重建 自监督学习 测试时优化 多视角一致性 LoRA微调
📋 核心要点
- 现有前馈3D重建模型缺乏测试时适应性,在复杂场景下重建精度受限。
- Free Geometry利用多视角一致性,通过自监督学习在测试时微调模型。
- 实验表明,该方法能有效提升相机姿态和点云预测精度,且计算开销小。
📝 摘要(中文)
本文提出Free Geometry框架,旨在提升前馈3D重建模型在测试时的性能。现有前馈模型缺乏对测试场景的适应性,导致重建结果在遮挡、镜面反射和模糊线索下易出错。Free Geometry通过在测试时进行自演化,无需3D真值即可优化模型。核心思想是利用多视角信息提升重建可靠性和视角一致性。该方法通过掩盖部分帧构建自监督任务,强制完整观测和部分观测之间的跨视角特征一致性,并保持被掩盖帧的成对关系。通过轻量级LoRA更新实现快速校准,单GPU上每个数据集耗时不到2分钟。在四个基准数据集上,该方法一致性地提升了包括Depth Anything 3和VGGT在内的先进模型,相机姿态精度平均提升3.73%,点云预测精度平均提升2.88%。
🔬 方法详解
问题定义:现有前馈3D重建模型在训练完成后,以零样本方式进行推理,无法适应测试场景的特定视觉特征。这导致在遮挡、镜面反射和模糊线索等情况下,重建结果容易出现错误。现有方法缺乏在测试时利用多视角信息进行自适应优化的能力。
核心思路:论文的核心思路是利用模型自身生成的多视角重建结果,通过自监督学习来提升重建质量。核心假设是,当模型接收到更多视角的信息时,其重建结果会更加可靠和视角一致。因此,可以通过比较完整视角和部分视角下的重建结果,来指导模型进行自我优化。
技术框架:Free Geometry框架主要包含以下几个步骤:1) 给定一个测试序列,随机掩盖一部分帧,形成部分观测;2) 使用前馈3D重建模型分别对完整观测和部分观测进行重建,得到相应的特征表示;3) 通过损失函数,强制完整观测和部分观测之间的跨视角特征一致性,并保持被掩盖帧的成对关系;4) 使用轻量级的LoRA(Low-Rank Adaptation)方法,对模型进行微调,实现快速校准。
关键创新:该方法最重要的创新点在于提出了一个完全自监督的测试时优化框架,无需任何3D真值即可提升重建精度。与传统的微调方法不同,Free Geometry利用模型自身生成的多视角信息,构建自监督信号,从而避免了对外部数据的依赖。此外,使用LoRA进行微调,大大降低了计算开销。
关键设计:关键设计包括:1) 掩盖帧的选择策略,需要保证部分观测能够提供足够的几何信息;2) 跨视角特征一致性损失函数的设计,需要能够有效地衡量完整观测和部分观测之间的差异;3) LoRA的参数设置,需要在精度和计算效率之间进行权衡。具体的损失函数可能包括特征距离损失、几何一致性损失等。网络结构方面,主要是在预训练模型的基础上添加LoRA模块。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Free Geometry能够显著提升现有前馈3D重建模型的性能。在四个基准数据集上,相机姿态精度平均提升3.73%,点云预测精度平均提升2.88%。该方法对Depth Anything 3和VGGT等先进模型均有效,且计算开销很小,单GPU上每个数据集耗时不到2分钟。这些结果表明,Free Geometry是一种高效且实用的3D重建优化方法。
🎯 应用场景
Free Geometry具有广泛的应用前景,例如在机器人导航、自动驾驶、增强现实等领域,可以提升三维场景理解的精度和鲁棒性。该方法无需3D真值,易于部署到各种实际场景中,具有很高的实用价值。未来可以进一步研究如何利用更丰富的自监督信号,以及如何将该方法推广到其他类型的3D重建模型。
📄 摘要(原文)
Feed-forward 3D reconstruction models are efficient but rigid: once trained, they perform inference in a zero-shot manner and cannot adapt to the test scene. As a result, visually plausible reconstructions often contain errors, particularly under occlusions, specularities, and ambiguous cues. To address this, we introduce Free Geometry, a framework that enables feed-forward 3D reconstruction models to self-evolve at test time without any 3D ground truth. Our key insight is that, when the model receives more views, it produces more reliable and view-consistent reconstructions. Leveraging this property, given a testing sequence, we mask a subset of frames to construct a self-supervised task. Free Geometry enforces cross-view feature consistency between representations from full and partial observations, while maintaining the pairwise relations implied by the held-out frames. This self-supervision allows for fast recalibration via lightweight LoRA updates, taking less than 2 minutes per dataset on a single GPU. Our approach consistently improves state-of-the-art foundation models, including Depth Anything 3 and VGGT, across 4 benchmark datasets, yielding an average improvement of 3.73% in camera pose accuracy and 2.88% in point map prediction. Code is available at https://github.com/hiteacherIamhumble/Free-Geometry .