Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis
作者: Zhiyuan Min, Yawei Luo, Jianwen Sun, Yi Yang
分类: cs.CV
发布日期: 2024-10-30 (更新: 2024-10-31)
备注: NeurIPS 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出eFreeSplat以解决传统3D高斯分割依赖于极线约束的问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D高斯分割 新视图合成 视觉变换器 自监督学习 跨视图对齐 计算机视觉 深度学习
📋 核心要点
- 现有的3D高斯分割方法依赖极线先验,这在复杂场景中表现不佳,尤其是在遮挡和非重叠区域。
- 本文提出eFreeSplat模型,采用自监督ViT进行特征提取,并引入跨视图高斯对齐方法,独立于极线约束。
- 实验结果表明,eFreeSplat在新视图合成任务中显著超越了传统方法,提供了更高的几何重建质量。
📝 摘要(中文)
通用的3D高斯分割(3DGS)能够通过前馈推理从稀疏视图重建新场景,消除了传统3DGS中需要场景特定重训练的需求。然而,现有方法过于依赖极线先验,这在复杂的真实场景中可能不可靠,尤其是在非重叠和遮挡区域。本文提出了eFreeSplat,一种高效的基于3DGS的模型,能够独立于极线约束进行通用的新视图合成。为增强多视图特征提取,我们采用了自监督的视觉变换器(ViT)并在大规模数据集上进行了跨视图补全的预训练。此外,我们引入了一种迭代跨视图高斯对齐方法,以确保不同视图之间的一致深度尺度。实验表明,eFreeSplat在使用RealEstate10K和ACID数据集的广基线新视图合成任务中超越了依赖极线先验的最先进基线,取得了更优的几何重建和新视图合成质量。
🔬 方法详解
问题定义:本文旨在解决传统3D高斯分割方法在复杂场景中对极线先验的依赖,导致在遮挡和非重叠区域表现不佳的问题。
核心思路:eFreeSplat通过自监督的视觉变换器(ViT)进行特征提取,并引入跨视图补全的预训练,旨在实现独立于极线约束的特征匹配和编码。
技术框架:整体架构包括自监督ViT用于特征提取、跨视图补全的预训练以及迭代跨视图高斯对齐方法,确保不同视图之间的一致深度尺度。
关键创新:eFreeSplat的核心创新在于其独立于极线约束的特征匹配机制,通过跨视图预训练提供3D先验,区别于现有的纯几何方法。
关键设计:模型设计中,采用了自监督学习策略,结合跨视图对齐技术,确保了在不同视图下的深度一致性,具体的损失函数和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果显示,eFreeSplat在RealEstate10K和ACID数据集上的新视图合成任务中,几何重建质量和合成效果显著优于依赖极线先验的最先进基线,具体提升幅度达到XX%(具体数据待补充)。
🎯 应用场景
该研究的潜在应用领域包括虚拟现实、增强现实以及计算机图形学中的新视图合成。通过提高新视图合成的质量和效率,eFreeSplat可以为多种应用提供更真实的视觉体验,推动相关技术的发展。
📄 摘要(原文)
Generalizable 3D Gaussian splitting (3DGS) can reconstruct new scenes from sparse-view observations in a feed-forward inference manner, eliminating the need for scene-specific retraining required in conventional 3DGS. However, existing methods rely heavily on epipolar priors, which can be unreliable in complex realworld scenes, particularly in non-overlapping and occluded regions. In this paper, we propose eFreeSplat, an efficient feed-forward 3DGS-based model for generalizable novel view synthesis that operates independently of epipolar line constraints. To enhance multiview feature extraction with 3D perception, we employ a selfsupervised Vision Transformer (ViT) with cross-view completion pre-training on large-scale datasets. Additionally, we introduce an Iterative Cross-view Gaussians Alignment method to ensure consistent depth scales across different views. Our eFreeSplat represents an innovative approach for generalizable novel view synthesis. Different from the existing pure geometry-free methods, eFreeSplat focuses more on achieving epipolar-free feature matching and encoding by providing 3D priors through cross-view pretraining. We evaluate eFreeSplat on wide-baseline novel view synthesis tasks using the RealEstate10K and ACID datasets. Extensive experiments demonstrate that eFreeSplat surpasses state-of-the-art baselines that rely on epipolar priors, achieving superior geometry reconstruction and novel view synthesis quality. Project page: https://tatakai1.github.io/efreesplat/.