FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes

📄 arXiv: 2405.17958v3 📥 PDF

作者: Yunsong Wang, Tianxin Huang, Hanlin Chen, Gim Hee Lee

分类: cs.CV

发布日期: 2024-05-28 (更新: 2024-10-29)


💡 一句话要点

FreeSplat:面向室内场景自由视角合成的通用3D高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 自由视角合成 跨视角聚合 场景重建 神经渲染

📋 核心要点

  1. 现有通用3D高斯溅射方法受限于窄视角范围,难以精确定位3D高斯并支持宽视角自由视角合成。
  2. FreeSplat通过低成本跨视角聚合、像素级三元融合和自由视角训练策略,实现几何一致的3D场景重建。
  3. 实验表明,FreeSplat在视角合成质量和深度图精度上均达到SOTA,并能高效推理和减少冗余高斯。

📝 摘要(中文)

本文提出了一种名为FreeSplat的通用3D高斯溅射框架,旨在从长序列输入中重建几何一致的3D场景,从而实现自由视角的合成。现有方法由于其庞大的骨干网络,很大程度上局限于立体图像之间的窄范围插值,缺乏精确定位3D高斯和支持宽视角范围自由视角合成的能力。FreeSplat首先引入了低成本的跨视角聚合,通过构建相邻视角之间的自适应代价体,并使用多尺度结构聚合特征来实现。其次,提出了像素级三元融合,以消除重叠视角区域中3D高斯冗余,并聚合跨多个视角观察到的特征。此外,还提出了一种简单而有效的自由视角训练策略,确保在更广泛的视角范围内实现鲁棒的视角合成,而无需考虑视角的数量。实验结果表明,FreeSplat在不同数量的输入视角下,在视角合成的色彩图质量和深度图精度方面均达到了最先进的水平。FreeSplat的推理效率更高,并能有效减少冗余高斯,从而无需深度先验即可实现前馈式的大场景重建。

🔬 方法详解

问题定义:现有可泛化的3D高斯溅射方法主要依赖于立体图像对之间的窄范围插值,这限制了它们在宽视角范围内的自由视角合成能力。这些方法难以精确定位3D高斯,并且通常需要大量的计算资源。因此,如何从长序列的图像输入中重建几何一致的3D场景,并实现高效的自由视角合成,是一个重要的挑战。

核心思路:FreeSplat的核心思路是通过跨视角特征聚合和冗余消除来提升3D高斯溅射的泛化能力和效率。具体来说,它利用低成本的跨视角聚合来学习视角之间的关系,并使用像素级三元融合来减少冗余的高斯分布。此外,通过自由视角训练策略,增强模型在不同视角下的鲁棒性。

技术框架:FreeSplat的整体框架包含以下几个主要模块:1) 低成本跨视角聚合:构建相邻视角之间的自适应代价体,并使用多尺度结构聚合特征。2) 像素级三元融合:消除重叠视角区域中3D高斯的冗余,并聚合跨多个视角观察到的特征。3) 自由视角训练:通过在更广泛的视角范围内进行训练,提高模型在不同视角下的鲁棒性。

关键创新:FreeSplat的关键创新在于以下几个方面:1) 低成本跨视角聚合:相比于传统的代价体构建方法,FreeSplat采用了一种更高效的策略,降低了计算复杂度。2) 像素级三元融合:通过融合多个视角的特征,有效地减少了冗余的高斯分布,提高了模型的效率。3) 自由视角训练:通过在更广泛的视角范围内进行训练,增强了模型在不同视角下的鲁棒性,使其能够更好地泛化到新的视角。

关键设计:在低成本跨视角聚合中,采用了多尺度结构来聚合特征,以提高特征的表达能力。在像素级三元融合中,设计了一种新的融合策略,以有效地消除冗余的高斯分布。在自由视角训练中,采用了一种简单而有效的训练策略,通过随机选择视角进行训练,提高了模型的鲁棒性。具体的损失函数包括渲染损失和深度损失,用于优化3D高斯参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FreeSplat在视角合成的色彩图质量和深度图精度方面均达到了最先进的水平。与现有方法相比,FreeSplat能够更有效地减少冗余高斯,并实现更高效的推理。此外,FreeSplat在不同数量的输入视角下均表现出良好的性能,证明了其具有很强的泛化能力。

🎯 应用场景

FreeSplat具有广泛的应用前景,包括虚拟现实、增强现实、机器人导航、自动驾驶等领域。它可以用于创建逼真的3D场景,并支持自由视角的交互体验。此外,FreeSplat的高效性和泛化能力使其能够应用于大规模场景的重建和渲染,为相关领域的发展提供强大的技术支持。

📄 摘要(原文)

Empowering 3D Gaussian Splatting with generalization ability is appealing. However, existing generalizable 3D Gaussian Splatting methods are largely confined to narrow-range interpolation between stereo images due to their heavy backbones, thus lacking the ability to accurately localize 3D Gaussian and support free-view synthesis across wide view range. In this paper, we present a novel framework FreeSplat that is capable of reconstructing geometrically consistent 3D scenes from long sequence input towards free-view synthesis.Specifically, we firstly introduce Low-cost Cross-View Aggregation achieved by constructing adaptive cost volumes among nearby views and aggregating features using a multi-scale structure. Subsequently, we present the Pixel-wise Triplet Fusion to eliminate redundancy of 3D Gaussians in overlapping view regions and to aggregate features observed across multiple views. Additionally, we propose a simple but effective free-view training strategy that ensures robust view synthesis across broader view range regardless of the number of views. Our empirical results demonstrate state-of-the-art novel view synthesis peformances in both novel view rendered color maps quality and depth maps accuracy across different numbers of input views. We also show that FreeSplat performs inference more efficiently and can effectively reduce redundant Gaussians, offering the possibility of feed-forward large scene reconstruction without depth priors.