VFM-Recon: Unlocking Cross-Domain Scene-Level Neural Reconstruction with Scale-Aligned Foundation Priors
作者: Yuhang Ming, Tingkang Xi, Xingrui Yang, Lixin Yang, Yong Peng, Cewu Lu, Wanzeng Kong
分类: cs.CV
发布日期: 2026-03-13
备注: 19 pages, 5 figures, 4 tables
💡 一句话要点
VFM-Recon:利用尺度对齐的VFM先验实现跨域场景级神经重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经体重建 视觉基础模型 跨域泛化 尺度对齐 三维重建
📋 核心要点
- 单目视频场景级神经体重建在领域迁移时面临挑战,现有方法难以保证重建质量。
- VFM-Recon通过尺度对齐模块和任务特定适配器,将VFM先验知识融入神经重建,提升泛化能力。
- 实验表明,VFM-Recon在跨域数据集上显著提升了重建性能,尤其在Tanks and Temples数据集上F1值提升显著。
📝 摘要(中文)
本文提出VFM-Recon,旨在解决单目视频场景级神经体重建在领域迁移下的难题。尽管视觉基础模型(VFM)展现出强大的泛化能力,但其尺度模糊的预测与体融合所需的尺度一致性不兼容。VFM-Recon首次尝试将可迁移的VFM先验与场景级神经重建的尺度一致性要求相结合。具体而言,首先引入轻量级的尺度对齐阶段,恢复多视角的尺度一致性。然后,通过轻量级的任务特定适配器将预训练的VFM特征集成到神经体重建流程中,这些适配器在保持预训练表示的跨域鲁棒性的同时,进行重建训练。在ScanNet训练集上训练,并在ScanNet测试集、TUM RGB-D和Tanks and Temples数据集上评估。结果表明,该模型在所有数据集领域都达到了最先进的性能。特别是在具有挑战性的室外Tanks and Temples数据集上,重建网格评估的F1得分为70.1,显著优于最接近的竞争对手VGGT(51.8)。
🔬 方法详解
问题定义:论文旨在解决单目视频场景级神经体重建在跨领域场景下的泛化性问题。现有的神经重建方法在训练数据和测试数据分布差异较大时,性能会显著下降。视觉基础模型(VFM)虽然具有强大的泛化能力,但其输出的尺度信息不明确,无法直接应用于需要尺度一致性的体素融合重建。
核心思路:论文的核心思路是利用预训练的视觉基础模型(VFM)提供先验知识,并通过尺度对齐模块解决VFM输出的尺度不确定性问题,从而实现跨领域场景的鲁棒重建。通过轻量级的任务特定适配器,将VFM的特征融入到神经体重建流程中,保留VFM的跨域泛化能力。
技术框架:VFM-Recon包含两个主要阶段:尺度对齐阶段和神经体重建阶段。尺度对齐阶段负责恢复多视角的尺度一致性,解决VFM输出的尺度模糊问题。神经体重建阶段利用对齐后的VFM特征,通过任务特定适配器融入到神经体重建流程中,进行场景重建。
关键创新:论文的关键创新在于将预训练的视觉基础模型(VFM)与神经体重建相结合,并提出了尺度对齐模块来解决VFM输出的尺度不确定性问题。这种方法能够有效地利用VFM的跨域泛化能力,提升神经重建模型在未知场景下的性能。同时,轻量级的任务特定适配器设计,保证了在进行重建训练的同时,能够保留VFM的跨域鲁棒性。
关键设计:尺度对齐模块的具体实现方式未知,但其目标是恢复多视角的尺度一致性。任务特定适配器采用轻量级设计,可能是简单的线性层或卷积层,用于将VFM的特征映射到神经体重建所需的特征空间。损失函数的设计可能包括重建损失和正则化项,以保证重建质量和模型的泛化能力。具体的网络结构和参数设置在论文中可能有所描述,但此处信息不足,无法详细说明。
🖼️ 关键图片
📊 实验亮点
VFM-Recon在ScanNet、TUM RGB-D和Tanks and Temples等数据集上取得了state-of-the-art的性能。特别是在具有挑战性的室外Tanks and Temples数据集上,重建网格评估的F1得分为70.1,显著优于最接近的竞争对手VGGT(51.8),提升幅度高达18.3。
🎯 应用场景
VFM-Recon技术可应用于机器人导航、自动驾驶、增强现实等领域。该技术能够提升在未知或复杂环境下三维场景重建的精度和鲁棒性,为机器人提供更可靠的环境感知能力,从而实现更智能的交互和决策。该研究对推动三维视觉和机器人技术的进步具有重要意义。
📄 摘要(原文)
Scene-level neural volumetric reconstruction from monocular videos remains challenging, especially under severe domain shifts. Although recent advances in vision foundation models (VFMs) provide transferable generalized priors learned from large-scale data, their scaleambiguous predictions are incompatible with the scale consistency required by volumetric fusion. To address this gap, we present VFMRecon, the first attempt to bridge transferable VFM priors with scaleconsistent requirements in scene-level neural reconstruction. Specifically, we first introduce a lightweight scale alignment stage that restores multiview scale coherence. We then integrate pretrained VFM features into the neural volumetric reconstruction pipeline via lightweight task-specific adapters, which are trained for reconstruction while preserving the crossdomain robustness of pretrained representations. We train our model on ScanNet train split and evaluate on both in-distribution ScanNet test split and out-of-distribution TUM RGB-D and Tanks and Temples datasets. The results demonstrate that our model achieves state-of-theart performance across all datasets domains. In particular, on the challenging outdoor Tanks and Temples dataset, our model achieves an F1 score of 70.1 in reconstructed mesh evaluation, substantially outperforming the closest competitor, VGGT, which only attains 51.8.