Neural Surface Reconstruction from Sparse Views Using Epipolar Geometry

📄 arXiv: 2406.04301v2 📥 PDF

作者: Xinhai Chang, Kaichen Zhou

分类: cs.CV

发布日期: 2024-06-06 (更新: 2026-01-02)


💡 一句话要点

EpiS:利用极几何进行稀疏视图神经表面重建,显著提升重建精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经表面重建 多视图几何 极几何 稀疏视图 三维重建 Transformer 单目深度估计

📋 核心要点

  1. 现有通用神经表面重建方法在稀疏视图下,由于几何信息不足和遮挡,难以重建精确表面。
  2. EpiS利用极几何约束,通过极线Transformer融合多视图信息,并结合单目深度模型进行几何正则化。
  3. 实验表明,EpiS在稀疏视图下显著优于现有方法,且具有良好的泛化性,无需场景特定优化。

📝 摘要(中文)

本文提出EpiS,一个通用的神经表面重建框架,它显式地利用极几何处理稀疏多视图图像的表面重建问题。现有方法主要依赖于成本体,使用简单的统计量(如均值和方差)来汇总多视图特征,忽略了关键的视角相关的几何结构,导致重建结果过于平滑。EpiS并非直接从成本体统计量回归几何信息,而是使用粗糙的成本体特征来引导细粒度的极线特征聚合,这些特征沿着源视图中对应的极线采样。一个极线Transformer融合多视图信息,然后进行逐射线的聚合,生成用于表面估计的SDF感知特征。为了进一步缓解稀疏视图下的信息损失,引入了一种几何正则化策略,通过尺度不变的全局和局部约束来利用预训练的单目深度模型。在DTU和BlendedMVS上的大量实验表明,EpiS在稀疏视图设置下显著优于最先进的通用表面重建方法,同时保持了强大的泛化能力,无需针对每个场景进行优化。

🔬 方法详解

问题定义:论文旨在解决从稀疏多视图图像中进行精确神经表面重建的问题。现有方法,如基于成本体的方法,通常使用均值和方差等简单统计量来聚合多视图特征,忽略了视角相关的几何信息,导致重建结果过于平滑,尤其是在视图稀疏的情况下,信息损失更加严重。

核心思路:论文的核心思路是显式地利用极几何约束来指导多视图信息的聚合。通过在极线上采样特征,并使用Transformer进行融合,可以更有效地利用视图间的几何关系,从而提高重建精度。此外,还引入了单目深度模型作为几何先验,进一步约束重建结果。

技术框架:EpiS框架主要包含以下几个阶段:1) 使用粗糙的成本体特征来指导极线特征的采样;2) 沿着极线在源视图中采样细粒度的特征;3) 使用极线Transformer融合多视图特征;4) 进行逐射线的特征聚合,生成SDF感知特征;5) 使用SDF感知特征进行表面估计;6) 使用预训练的单目深度模型进行几何正则化。

关键创新:最重要的技术创新点在于显式地利用极几何约束进行多视图特征融合。与直接从成本体统计量回归几何信息不同,EpiS通过极线Transformer,在极线的约束下,更有效地聚合多视图信息,从而提高了重建精度。此外,利用单目深度模型进行几何正则化也是一个重要的创新点,可以缓解稀疏视图下的信息不足问题。

关键设计:极线Transformer是关键的网络结构,用于融合沿着极线采样的多视图特征。几何正则化策略使用尺度不变的全局和局部约束,利用预训练的单目深度模型作为几何先验。损失函数包括SDF损失和几何正则化损失。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EpiS在DTU和BlendedMVS数据集上进行了广泛的实验,结果表明,EpiS在稀疏视图设置下显著优于现有的通用表面重建方法。例如,在DTU数据集上,EpiS在L1误差和Chamfer距离等指标上均取得了显著的提升。此外,EpiS还具有良好的泛化能力,无需针对每个场景进行优化。

🎯 应用场景

该研究成果可应用于三维重建、虚拟现实、增强现实、机器人导航等领域。在这些应用中,从有限的视角重建精确的三维模型至关重要。例如,在机器人导航中,机器人可以利用该方法从稀疏的图像中重建环境地图,从而实现自主导航。在虚拟现实和增强现实中,可以用于创建逼真的三维场景。

📄 摘要(原文)

Reconstructing accurate surfaces from sparse multi-view images remains challenging due to severe geometric ambiguity and occlusions. Existing generalizable neural surface reconstruction methods primarily rely on cost volumes that summarize multi-view features using simple statistics (e.g., mean and variance), which discard critical view-dependent geometric structure and often lead to over-smoothed reconstructions. We propose EpiS, a generalizable neural surface reconstruction framework that explicitly leverages epipolar geometry for sparse-view inputs. Instead of directly regressing geometry from cost-volume statistics, EpiS uses coarse cost-volume features to guide the aggregation of fine-grained epipolar features sampled along corresponding epipolar lines across source views. An epipolar transformer fuses multi-view information, followed by ray-wise aggregation to produce SDF-aware features for surface estimation. To further mitigate information loss under sparse views, we introduce a geometry regularization strategy that leverages a pretrained monocular depth model through scale-invariant global and local constraints. Extensive experiments on DTU and BlendedMVS demonstrate that EpiS significantly outperforms state-of-the-art generalizable surface reconstruction methods under sparse-view settings, while maintaining strong generalization without per-scene optimization.