Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors

📄 arXiv: 2410.09467v2 📥 PDF

作者: Hritam Basak, Hadi Tabatabaee, Shreekant Gayaka, Ming-Feng Li, Xin Yang, Cheng-Hao Kuo, Arnie Sen, Min Sun, Zhaozheng Yin

分类: cs.CV

发布日期: 2024-10-12 (更新: 2024-11-19)


💡 一句话要点

提出基于高斯溅射和混合扩散先验的单图到3D生成方法,提升几何一致性和纹理细节。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 单图到3D生成 高斯溅射 扩散模型 频率蒸馏 几何一致性

📋 核心要点

  1. 现有单图到3D生成方法在2D和3D扩散模型之间存在差异,导致生成结果在几何一致性和纹理细节上存在trade-off。
  2. 该方法通过结合2D和3D扩散模型的优势,利用频率蒸馏损失在高斯溅射中融合几何先验和纹理细节,提升生成质量。
  3. 实验结果表明,该方法在几何一致性和视觉质量上超越了现有最佳方法,并展示了其在姿态估计和跟踪方面的潜力。

📝 摘要(中文)

本文提出了一种从单张图像生成3D物体的方法,该方法旨在解决从无姿态RGB图像重建完整3D几何结构和纹理的问题。通过优化高斯溅射表示,并结合预训练的2D和3D扩散模型,实现3D形状和纹理的重建。针对2D模型细节丰富但视角一致性差,3D模型视角一致但纹理平滑的问题,本文提出了一种双阶段的基于频率的蒸馏损失,结合高斯溅射。利用3D扩散模型的低频几何先验保持几何一致性,并利用2D扩散模型在高频部分细化纹理,从而生成更精细的3D结构。实验结果表明,该方法在几何一致性和视觉质量上优于现有技术,并且易于应用于物体姿态估计和跟踪。

🔬 方法详解

问题定义:现有单图到3D生成方法面临的挑战是如何在几何一致性和纹理细节之间取得平衡。基于2D扩散模型的方法虽然能生成高细节的纹理,但在不同视角下缺乏一致性。而基于3D扩散模型的方法虽然保证了一致性,但生成的纹理过于平滑,缺乏细节。

核心思路:本文的核心思路是结合2D和3D扩散模型的优势,利用各自的先验知识来指导3D生成的优化过程。具体来说,利用3D扩散模型提供的低频几何先验来保证生成结果的几何一致性,同时利用2D扩散模型提供的高频纹理先验来提升生成结果的细节丰富度。通过频率蒸馏损失,将两种先验知识有效地融合到高斯溅射的优化过程中。

技术框架:该方法采用一个两阶段的训练框架。第一阶段,利用3D扩散模型提供的几何先验,对高斯溅射的几何形状进行初始化和优化,保证生成结果的整体结构。第二阶段,利用2D扩散模型提供的纹理先验,对高斯溅射的纹理细节进行细化,提升生成结果的视觉质量。这两个阶段通过频率蒸馏损失进行连接,保证了几何一致性和纹理细节的有效融合。

关键创新:该方法最重要的创新点在于提出了一个双阶段的基于频率的蒸馏损失,能够有效地将2D和3D扩散模型的先验知识融合到高斯溅射的优化过程中。这种方法避免了直接使用2D或3D扩散模型进行生成,而是利用它们作为先验知识的来源,从而能够在几何一致性和纹理细节之间取得更好的平衡。

关键设计:该方法使用了高斯溅射作为3D表示,因为它具有高效性和可微性,便于优化。频率蒸馏损失的设计是关键,它将2D和3D扩散模型的输出分解为低频和高频部分,并分别进行约束。具体来说,低频部分使用3D扩散模型的输出作为目标,保证几何一致性;高频部分使用2D扩散模型的输出作为目标,提升纹理细节。损失函数的权重需要仔细调整,以平衡几何一致性和纹理细节之间的trade-off。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在几何一致性和视觉质量上均优于现有最佳方法。通过定量指标和视觉效果对比,证明了该方法能够生成更精细、更真实的3D模型。此外,该方法还展示了在物体姿态估计和跟踪方面的应用潜力,进一步验证了其有效性和实用性。

🎯 应用场景

该研究成果可广泛应用于机器人操作、抓取、3D场景理解以及AR/VR等领域。高质量的单图到3D生成技术能够提升机器人对环境的感知能力,使其能够更好地进行物体识别、姿态估计和交互。在AR/VR领域,该技术可以用于快速生成逼真的3D模型,提升用户体验。

📄 摘要(原文)

3D object generation from a single image involves estimating the full 3D geometry and texture of unseen views from an unposed RGB image captured in the wild. Accurately reconstructing an object's complete 3D structure and texture has numerous applications in real-world scenarios, including robotic manipulation, grasping, 3D scene understanding, and AR/VR. Recent advancements in 3D object generation have introduced techniques that reconstruct an object's 3D shape and texture by optimizing the efficient representation of Gaussian Splatting, guided by pre-trained 2D or 3D diffusion models. However, a notable disparity exists between the training datasets of these models, leading to distinct differences in their outputs. While 2D models generate highly detailed visuals, they lack cross-view consistency in geometry and texture. In contrast, 3D models ensure consistency across different views but often result in overly smooth textures. We propose bridging the gap between 2D and 3D diffusion models to address this limitation by integrating a two-stage frequency-based distillation loss with Gaussian Splatting. Specifically, we leverage geometric priors in the low-frequency spectrum from a 3D diffusion model to maintain consistent geometry and use a 2D diffusion model to refine the fidelity and texture in the high-frequency spectrum of the generated 3D structure, resulting in more detailed and fine-grained outcomes. Our approach enhances geometric consistency and visual quality, outperforming the current SOTA. Additionally, we demonstrate the easy adaptability of our method for efficient object pose estimation and tracking.