NeVStereo: A NeRF-Driven NVS-Stereo Architecture for High-Fidelity 3D Tasks
作者: Pengcheng Chen, Yue Hu, Wenhao Li, Nicole M Gunderson, Andrew Feng, Zhenglong Sun, Peter Beerel, Eric J Seibel
分类: cs.CV, cs.GR
发布日期: 2026-02-05
💡 一句话要点
NeVStereo:一种NeRF驱动的NVS-Stereo架构,用于高保真3D任务
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: NeRF 新视角合成 三维重建 立体视觉 深度估计 相机位姿估计 捆绑调整
📋 核心要点
- 现有稠密3D重建方法难以同时保证准确的相机位姿、可靠的深度估计、高质量的新视角合成和精确的3D表面重建。
- NeVStereo通过NeRF驱动的NVS-stereo架构,联合优化相机位姿、多视角深度、新视角合成和表面重建,实现几何一致性。
- 实验表明,NeVStereo在多个数据集上实现了显著的性能提升,尤其在深度误差、位姿精度和网格质量方面。
📝 摘要(中文)
在现代稠密3D重建中,前馈系统侧重于端到端的匹配和几何预测,但没有明确输出新视角合成(NVS)。基于神经渲染的方法能够从已知的相机位姿图像中提供高保真的NVS和详细的几何信息,但它们通常假设固定的相机位姿,并且对位姿误差非常敏感。因此,要获得一个能够从随意捕获的视图中提供准确位姿、可靠深度、高质量渲染和精确3D表面的单一框架仍然具有挑战性。我们提出了NeVStereo,一种NeRF驱动的NVS-stereo架构,旨在从多视角RGB输入中联合提供相机位姿、多视角深度、新视角合成和表面重建。NeVStereo结合了基于NeRF的NVS以实现立体友好的渲染、置信度引导的多视角深度估计、NeRF耦合的捆绑调整以进行位姿优化,以及一个迭代优化阶段,该阶段更新深度和辐射场以提高几何一致性。这种设计缓解了常见的基于NeRF的问题,如表面堆叠、伪影和位姿-深度耦合。在室内、室外、桌面和航空基准测试中,我们的实验表明NeVStereo实现了始终如一的强大零样本性能,与现有方法相比,深度误差降低高达36%,位姿精度提高10.4%,NVS保真度提高4.5%,并且网格质量达到最先进水平(F1 91.93%,Chamfer 4.35 mm)。
🔬 方法详解
问题定义:现有稠密3D重建方法,如前馈网络,侧重于端到端匹配和几何预测,缺乏显式的新视角合成能力。而基于神经渲染的方法虽然能实现高质量的新视角合成,但对相机位姿精度要求高,且容易受到位姿误差的影响。因此,如何从多视角图像中同时获得准确的相机位姿、可靠的深度信息、高质量的渲染效果和精确的3D表面重建是一个挑战。
核心思路:NeVStereo的核心思路是将NeRF的新视角合成能力与传统立体视觉的深度估计方法相结合,通过联合优化相机位姿、深度信息和辐射场,实现几何一致性。该方法利用NeRF生成立体友好的渲染结果,并使用置信度引导的多视角深度估计来提高深度信息的准确性。
技术框架:NeVStereo的整体架构包含以下几个主要模块:1) 基于NeRF的新视角合成模块,用于生成立体友好的渲染结果;2) 置信度引导的多视角深度估计模块,用于估计场景的深度信息;3) NeRF耦合的捆绑调整模块,用于优化相机位姿;4) 迭代优化模块,用于同时更新深度信息和辐射场,以提高几何一致性。
关键创新:NeVStereo的关键创新在于将NeRF与传统立体视觉方法相结合,并通过迭代优化来提高几何一致性。与传统的NeRF方法相比,NeVStereo能够更好地处理相机位姿误差,并生成更准确的深度信息和更高质量的渲染结果。此外,置信度引导的深度估计和NeRF耦合的捆绑调整也是重要的创新点。
关键设计:NeVStereo的关键设计包括:1) 使用基于NeRF的新视角合成模块,生成立体友好的渲染结果;2) 使用置信度引导的多视角深度估计模块,提高深度信息的准确性;3) 使用NeRF耦合的捆绑调整模块,优化相机位姿;4) 设计迭代优化流程,交替更新深度信息和辐射场,以提高几何一致性。具体的损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
NeVStereo在多个数据集上取得了显著的性能提升。与现有方法相比,NeVStereo的深度误差降低高达36%,位姿精度提高10.4%,NVS保真度提高4.5%,并且网格质量达到最先进水平(F1 91.93%,Chamfer 4.35 mm)。这些实验结果表明,NeVStereo是一种有效的稠密3D重建方法。
🎯 应用场景
NeVStereo在三维重建、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于创建高精度的三维模型,为虚拟现实和增强现实应用提供逼真的场景渲染。此外,NeVStereo还可以用于机器人导航,帮助机器人理解周围环境,实现自主导航和避障。
📄 摘要(原文)
In modern dense 3D reconstruction, feed-forward systems (e.g., VGGT, pi3) focus on end-to-end matching and geometry prediction but do not explicitly output the novel view synthesis (NVS). Neural rendering-based approaches offer high-fidelity NVS and detailed geometry from posed images, yet they typically assume fixed camera poses and can be sensitive to pose errors. As a result, it remains non-trivial to obtain a single framework that can offer accurate poses, reliable depth, high-quality rendering, and accurate 3D surfaces from casually captured views. We present NeVStereo, a NeRF-driven NVS-stereo architecture that aims to jointly deliver camera poses, multi-view depth, novel view synthesis, and surface reconstruction from multi-view RGB-only inputs. NeVStereo combines NeRF-based NVS for stereo-friendly renderings, confidence-guided multi-view depth estimation, NeRF-coupled bundle adjustment for pose refinement, and an iterative refinement stage that updates both depth and the radiance field to improve geometric consistency. This design mitigated the common NeRF-based issues such as surface stacking, artifacts, and pose-depth coupling. Across indoor, outdoor, tabletop, and aerial benchmarks, our experiments indicate that NeVStereo achieves consistently strong zero-shot performance, with up to 36% lower depth error, 10.4% improved pose accuracy, 4.5% higher NVS fidelity, and state-of-the-art mesh quality (F1 91.93%, Chamfer 4.35 mm) compared to existing prestigious methods.