Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers
作者: Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao, Song-Hai Zhang
分类: cs.CV
发布日期: 2023-12-14 (更新: 2023-12-16)
备注: Project Page: https://zouzx.github.io/TriplaneGaussian/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于Transformer的混合Triplane-Gaussian表示方法,实现快速且泛化的单视图3D重建。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单视图重建 3D高斯溅射 Triplane表示 Transformer网络 混合表示 快速渲染 点云生成
📋 核心要点
- 现有单视图3D重建方法优化或渲染速度慢,导致训练和优化时间过长。
- 提出混合Triplane-Gaussian表示,结合Triplane和3D高斯的优点,加速渲染并提升质量。
- 使用Transformer架构的点解码器和Triplane解码器,实现高效特征提取和3D高斯属性预测。
📝 摘要(中文)
本文提出了一种新颖的单视图3D重建方法,该方法通过前馈推理从单张图像中高效生成3D模型。该方法利用两个基于Transformer的网络,即点解码器和Triplane解码器,使用混合的Triplane-Gaussian中间表示来重建3D对象。这种混合表示实现了速度和质量的平衡:相比于隐式表示,渲染速度更快;相比于显式表示,渲染质量更高。点解码器用于从单张图像生成点云,提供显式表示,然后Triplane解码器利用这些点云来查询每个点的高斯特征。这种设计解决了直接回归非结构化的3D高斯属性的挑战。随后,3D高斯通过MLP解码,从而通过splatting实现快速渲染。两个解码器都基于可扩展的Transformer架构,并在大规模3D数据集上进行了高效训练。在合成数据集和真实图像上的评估表明,与先前的最先进技术相比,该方法不仅实现了更高的质量,而且确保了更快的运行时间。
🔬 方法详解
问题定义:单视图3D重建旨在从单张2D图像恢复出3D模型。现有方法,如基于SDS和扩散模型的方法,虽然取得了进展,但通常面临优化或渲染速度慢的限制,导致训练和优化时间过长。直接回归显式3D高斯属性由于其非结构化特性也存在挑战。
核心思路:本文的核心思路是利用混合的Triplane-Gaussian表示作为中间表示,结合Triplane的快速特征查询能力和3D高斯的快速渲染能力。通过这种混合表示,可以在保证渲染质量的同时,显著提高渲染速度。同时,利用点云作为桥梁,将图像特征与3D高斯属性关联起来,避免直接回归非结构化的3D高斯属性。
技术框架:该方法包含两个主要模块:点解码器和Triplane解码器。首先,点解码器利用Transformer从单张图像中生成点云。然后,Triplane解码器利用这些点云在Triplane特征空间中查询特征,并预测每个点对应的3D高斯属性。最后,通过MLP解码3D高斯属性,并使用splatting技术进行快速渲染。
关键创新:该方法最重要的技术创新点在于混合Triplane-Gaussian表示。这种表示方式结合了Triplane的快速特征查询能力和3D高斯的快速渲染能力,从而在保证渲染质量的同时,显著提高了渲染速度。此外,使用点云作为桥梁,避免了直接回归非结构化的3D高斯属性,提高了重建的稳定性和质量。
关键设计:点解码器和Triplane解码器均采用基于Transformer的架构,具有良好的可扩展性。点解码器负责从图像中提取特征并生成点云。Triplane解码器利用点云在三个正交平面上查询特征,并预测每个点对应的3D高斯属性,包括位置、缩放、旋转和颜色等。损失函数包括重建损失和正则化损失,用于约束点云和3D高斯的形状和分布。
📊 实验亮点
该方法在合成数据集和真实图像上均取得了优异的性能。与现有方法相比,该方法在重建质量和渲染速度上均有显著提升。具体而言,在合成数据集上,该方法在PSNR、SSIM等指标上均优于现有方法。在真实图像上,该方法能够生成更逼真、更细节的3D模型,并且渲染速度更快。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏开发、机器人导航等领域。例如,在VR/AR应用中,可以利用该方法快速生成逼真的3D模型,提升用户体验。在机器人导航中,可以利用该方法从单张图像中重建环境地图,帮助机器人进行路径规划和避障。该方法还可用于3D内容创作,降低3D建模的门槛。
📄 摘要(原文)
Recent advancements in 3D reconstruction from single images have been driven by the evolution of generative models. Prominent among these are methods based on Score Distillation Sampling (SDS) and the adaptation of diffusion models in the 3D domain. Despite their progress, these techniques often face limitations due to slow optimization or rendering processes, leading to extensive training and optimization times. In this paper, we introduce a novel approach for single-view reconstruction that efficiently generates a 3D model from a single image via feed-forward inference. Our method utilizes two transformer-based networks, namely a point decoder and a triplane decoder, to reconstruct 3D objects using a hybrid Triplane-Gaussian intermediate representation. This hybrid representation strikes a balance, achieving a faster rendering speed compared to implicit representations while simultaneously delivering superior rendering quality than explicit representations. The point decoder is designed for generating point clouds from single images, offering an explicit representation which is then utilized by the triplane decoder to query Gaussian features for each point. This design choice addresses the challenges associated with directly regressing explicit 3D Gaussian attributes characterized by their non-structural nature. Subsequently, the 3D Gaussians are decoded by an MLP to enable rapid rendering through splatting. Both decoders are built upon a scalable, transformer-based architecture and have been efficiently trained on large-scale 3D datasets. The evaluations conducted on both synthetic datasets and real-world images demonstrate that our method not only achieves higher quality but also ensures a faster runtime in comparison to previous state-of-the-art techniques. Please see our project page at https://zouzx.github.io/TriplaneGaussian/.