Splatter-360: Generalizable 360$^{\circ}$ Gaussian Splatting for Wide-baseline Panoramic Images
作者: Zheng Chen, Chenming Wu, Zhelun Shen, Chen Zhao, Weicai Ye, Haocheng Feng, Errui Ding, Song-Hai Zhang
分类: cs.CV, cs.GR
发布日期: 2024-12-09
备注: Project page:https://3d-aigc.github.io/Splatter-360/. Code: https://github.com/thucz/splatter360
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Splatter-360:面向宽基线全景图像的可泛化360°高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 全景图像 新视角合成 球面代价体 多视角匹配
📋 核心要点
- 现有3D高斯溅射方法在宽基线全景图像下难以学习精确几何,导致过拟合。
- Splatter-360通过球面代价体进行球面域多视角匹配,增强深度感知和几何估计。
- 实验表明,Splatter-360在合成质量和泛化性能上显著优于现有方法。
📝 摘要(中文)
本文提出Splatter-360,一个新颖的端到端可泛化3D高斯溅射框架,旨在处理宽基线全景图像。针对现有3D高斯溅射方法在处理稀疏360°视角的全景图像时,难以学习精确几何结构,容易过拟合训练数据的问题,Splatter-360通过球面扫描算法构建球面代价体,直接在球面域执行多视角匹配,从而增强网络的深度感知和几何估计能力。此外,本文还引入了3D感知的双投影编码器,以减轻全景图像中固有的畸变,并整合了跨视角注意力机制,以改善多个视角之间的特征交互。这使得框架能够实现鲁棒的3D感知特征表示和实时渲染能力。在HM3D和Replica数据集上的实验结果表明,Splatter-360在宽基线全景图像的合成质量和泛化性能方面,显著优于现有的NeRF和3D高斯溅射方法。
🔬 方法详解
问题定义:现有方法在处理宽基线全景图像时,由于视角稀疏和图像畸变,难以准确估计场景的几何结构,导致3D高斯溅射模型容易过拟合训练数据,泛化能力差。尤其是在360°全景图像中,这种问题更为突出。
核心思路:Splatter-360的核心思路是在球面域进行多视角匹配,利用球面代价体来增强网络的深度感知能力和几何估计能力。通过在球面空间中进行特征匹配,可以更好地处理全景图像的畸变问题,并提高模型对场景几何结构的理解。
技术框架:Splatter-360框架主要包含以下几个模块:1) 3D感知的双投影编码器:用于提取全景图像的特征,并减轻图像畸变;2) 球面扫描算法:用于构建球面代价体,实现球面域的多视角匹配;3) 跨视角注意力机制:用于增强不同视角之间的特征交互;4) 3D高斯溅射渲染器:用于将3D高斯模型渲染成图像。整体流程是:首先使用双投影编码器提取图像特征,然后通过球面扫描算法构建球面代价体,利用跨视角注意力机制进行特征融合,最后使用3D高斯溅射渲染器生成图像。
关键创新:Splatter-360的关键创新在于:1) 提出了一种在球面域进行多视角匹配的方法,通过球面代价体来增强网络的深度感知能力和几何估计能力;2) 引入了3D感知的双投影编码器,以减轻全景图像中固有的畸变;3) 整合了跨视角注意力机制,以改善多个视角之间的特征交互。与现有方法相比,Splatter-360能够更好地处理宽基线全景图像,提高模型的泛化能力。
关键设计:球面代价体的构建采用球面扫描算法,通过在球面上进行特征匹配来估计深度信息。双投影编码器采用两个不同的投影方式来提取图像特征,从而减轻图像畸变。跨视角注意力机制采用Transformer结构,用于学习不同视角之间的特征关系。损失函数包括渲染损失和深度损失,用于优化模型的渲染质量和深度估计精度。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
Splatter-360在HM3D和Replica数据集上进行了实验,结果表明,该方法在合成质量和泛化性能方面显著优于现有的NeRF和3D高斯溅射方法,例如PanoGRF, MVSplat, DepthSplat, 和 HiSplat。具体性能提升数据未知,但论文强调了其在宽基线全景图像处理方面的优势。
🎯 应用场景
Splatter-360在虚拟现实、增强现实、游戏开发、机器人导航等领域具有广泛的应用前景。它可以用于从少量宽基线全景图像中生成高质量的新视角图像,从而降低数据采集成本,提高渲染效率。此外,Splatter-360还可以用于构建逼真的3D场景模型,为用户提供沉浸式的体验。未来,该技术有望应用于自动驾驶、城市建模等领域。
📄 摘要(原文)
Wide-baseline panoramic images are frequently used in applications like VR and simulations to minimize capturing labor costs and storage needs. However, synthesizing novel views from these panoramic images in real time remains a significant challenge, especially due to panoramic imagery's high resolution and inherent distortions. Although existing 3D Gaussian splatting (3DGS) methods can produce photo-realistic views under narrow baselines, they often overfit the training views when dealing with wide-baseline panoramic images due to the difficulty in learning precise geometry from sparse 360$^{\circ}$ views. This paper presents \textit{Splatter-360}, a novel end-to-end generalizable 3DGS framework designed to handle wide-baseline panoramic images. Unlike previous approaches, \textit{Splatter-360} performs multi-view matching directly in the spherical domain by constructing a spherical cost volume through a spherical sweep algorithm, enhancing the network's depth perception and geometry estimation. Additionally, we introduce a 3D-aware bi-projection encoder to mitigate the distortions inherent in panoramic images and integrate cross-view attention to improve feature interactions across multiple viewpoints. This enables robust 3D-aware feature representations and real-time rendering capabilities. Experimental results on the HM3D~\cite{hm3d} and Replica~\cite{replica} demonstrate that \textit{Splatter-360} significantly outperforms state-of-the-art NeRF and 3DGS methods (e.g., PanoGRF, MVSplat, DepthSplat, and HiSplat) in both synthesis quality and generalization performance for wide-baseline panoramic images. Code and trained models are available at \url{https://3d-aigc.github.io/Splatter-360/}.