NeVStereo: A NeRF-Driven NVS-Stereo Architecture for High-Fidelity 3D Tasks

作者: Pengcheng Chen, Yue Hu, Wenhao Li, Nicole M Gunderson, Andrew Feng, Zhenglong Sun, Peter Beerel, Eric J Seibel

分类: cs.CV, cs.GR

发布日期: 2026-02-05

💡 一句话要点

NeVStereo：一种NeRF驱动的NVS-Stereo架构，用于高保真3D任务

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: NeRF 新视角合成 三维重建 立体视觉 深度估计 相机位姿估计 捆绑调整

📋 核心要点

现有稠密3D重建方法难以同时保证准确的相机位姿、可靠的深度估计、高质量的新视角合成和精确的3D表面重建。
NeVStereo通过NeRF驱动的NVS-stereo架构，联合优化相机位姿、多视角深度、新视角合成和表面重建，实现几何一致性。
实验表明，NeVStereo在多个数据集上实现了显著的性能提升，尤其在深度误差、位姿精度和网格质量方面。

📝 摘要（中文）

在现代稠密3D重建中，前馈系统侧重于端到端的匹配和几何预测，但没有明确输出新视角合成（NVS）。基于神经渲染的方法能够从已知的相机位姿图像中提供高保真的NVS和详细的几何信息，但它们通常假设固定的相机位姿，并且对位姿误差非常敏感。因此，要获得一个能够从随意捕获的视图中提供准确位姿、可靠深度、高质量渲染和精确3D表面的单一框架仍然具有挑战性。我们提出了NeVStereo，一种NeRF驱动的NVS-stereo架构，旨在从多视角RGB输入中联合提供相机位姿、多视角深度、新视角合成和表面重建。NeVStereo结合了基于NeRF的NVS以实现立体友好的渲染、置信度引导的多视角深度估计、NeRF耦合的捆绑调整以进行位姿优化，以及一个迭代优化阶段，该阶段更新深度和辐射场以提高几何一致性。这种设计缓解了常见的基于NeRF的问题，如表面堆叠、伪影和位姿-深度耦合。在室内、室外、桌面和航空基准测试中，我们的实验表明NeVStereo实现了始终如一的强大零样本性能，与现有方法相比，深度误差降低高达36%，位姿精度提高10.4%，NVS保真度提高4.5%，并且网格质量达到最先进水平（F1 91.93%，Chamfer 4.35 mm）。

🔬 方法详解

问题定义：现有稠密3D重建方法，如前馈网络，侧重于端到端匹配和几何预测，缺乏显式的新视角合成能力。而基于神经渲染的方法虽然能实现高质量的新视角合成，但对相机位姿精度要求高，且容易受到位姿误差的影响。因此，如何从多视角图像中同时获得准确的相机位姿、可靠的深度信息、高质量的渲染效果和精确的3D表面重建是一个挑战。

核心思路：NeVStereo的核心思路是将NeRF的新视角合成能力与传统立体视觉的深度估计方法相结合，通过联合优化相机位姿、深度信息和辐射场，实现几何一致性。该方法利用NeRF生成立体友好的渲染结果，并使用置信度引导的多视角深度估计来提高深度信息的准确性。

技术框架：NeVStereo的整体架构包含以下几个主要模块：1) 基于NeRF的新视角合成模块，用于生成立体友好的渲染结果；2) 置信度引导的多视角深度估计模块，用于估计场景的深度信息；3) NeRF耦合的捆绑调整模块，用于优化相机位姿；4) 迭代优化模块，用于同时更新深度信息和辐射场，以提高几何一致性。

关键创新：NeVStereo的关键创新在于将NeRF与传统立体视觉方法相结合，并通过迭代优化来提高几何一致性。与传统的NeRF方法相比，NeVStereo能够更好地处理相机位姿误差，并生成更准确的深度信息和更高质量的渲染结果。此外，置信度引导的深度估计和NeRF耦合的捆绑调整也是重要的创新点。

关键设计：NeVStereo的关键设计包括：1) 使用基于NeRF的新视角合成模块，生成立体友好的渲染结果；2) 使用置信度引导的多视角深度估计模块，提高深度信息的准确性；3) 使用NeRF耦合的捆绑调整模块，优化相机位姿；4) 设计迭代优化流程，交替更新深度信息和辐射场，以提高几何一致性。具体的损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

NeVStereo在多个数据集上取得了显著的性能提升。与现有方法相比，NeVStereo的深度误差降低高达36%，位姿精度提高10.4%，NVS保真度提高4.5%，并且网格质量达到最先进水平（F1 91.93%，Chamfer 4.35 mm）。这些实验结果表明，NeVStereo是一种有效的稠密3D重建方法。

🎯 应用场景

NeVStereo在三维重建、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于创建高精度的三维模型，为虚拟现实和增强现实应用提供逼真的场景渲染。此外，NeVStereo还可以用于机器人导航，帮助机器人理解周围环境，实现自主导航和避障。

📄 摘要（原文）

In modern dense 3D reconstruction, feed-forward systems (e.g., VGGT, pi3) focus on end-to-end matching and geometry prediction but do not explicitly output the novel view synthesis (NVS). Neural rendering-based approaches offer high-fidelity NVS and detailed geometry from posed images, yet they typically assume fixed camera poses and can be sensitive to pose errors. As a result, it remains non-trivial to obtain a single framework that can offer accurate poses, reliable depth, high-quality rendering, and accurate 3D surfaces from casually captured views. We present NeVStereo, a NeRF-driven NVS-stereo architecture that aims to jointly deliver camera poses, multi-view depth, novel view synthesis, and surface reconstruction from multi-view RGB-only inputs. NeVStereo combines NeRF-based NVS for stereo-friendly renderings, confidence-guided multi-view depth estimation, NeRF-coupled bundle adjustment for pose refinement, and an iterative refinement stage that updates both depth and the radiance field to improve geometric consistency. This design mitigated the common NeRF-based issues such as surface stacking, artifacts, and pose-depth coupling. Across indoor, outdoor, tabletop, and aerial benchmarks, our experiments indicate that NeVStereo achieves consistently strong zero-shot performance, with up to 36% lower depth error, 10.4% improved pose accuracy, 4.5% higher NVS fidelity, and state-of-the-art mesh quality (F1 91.93%, Chamfer 4.35 mm) compared to existing prestigious methods.

NeVStereo: A NeRF-Driven NVS-Stereo Architecture for High-Fidelity 3D Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理