Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

作者: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei

分类: cs.CV, cs.MM

发布日期: 2024-09-11

备注: ACM Multimedia 2024. Source code is available at \url{https://github.com/yanghb22-fdu/Hi3D-Official}

🔗 代码/项目: GITHUB

💡 一句话要点

Hi3D：利用视频扩散模型实现高分辨率图像到3D生成

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 图像到3D生成 视频扩散模型 多视角一致性 高分辨率纹理 3D重建

📋 核心要点

现有图像到3D生成方法难以生成具有高分辨率纹理细节的多视角一致性图像，尤其是在2D扩散范式下。
Hi3D将单张图像到多视角图像的生成视为3D感知的序列图像生成，利用视频扩散模型的时间一致性来保证几何一致性。
Hi3D通过3D感知先验增强视频扩散模型，并学习3D感知的视频到视频精炼器，最终通过3D重建获得高保真网格。

📝 摘要（中文）

本文提出了一种新的基于视频扩散的图像到3D生成模型Hi3D，旨在解决现有方法在生成具有高分辨率纹理细节的多视角一致性图像方面的难题，尤其是在缺乏3D感知的2D扩散范式下。Hi3D将单张图像到多视角图像的生成重新定义为3D感知的序列图像生成（即轨道视频生成）。该方法深入研究了视频扩散模型中潜在的时间一致性知识，并将其推广到3D生成中多个视角之间的几何一致性。技术上，Hi3D首先利用3D感知先验（相机姿态条件）增强预训练的视频扩散模型，生成具有低分辨率纹理细节的多视角图像。然后，学习一个3D感知的视频到视频精炼器，以进一步放大具有高分辨率纹理细节的多视角图像。通过3D高斯溅射，这些高分辨率多视角图像进一步通过新视角合成进行增强，最终用于通过3D重建获得高保真网格。大量实验表明，Hi3D能够生成具有高度细节纹理的卓越多视角一致性图像。

🔬 方法详解

问题定义：现有图像到3D生成方法，特别是基于2D扩散的方法，难以生成具有高分辨率纹理细节的多视角一致性图像。这些方法缺乏对3D结构的直接感知，导致生成的多视角图像在几何上不一致，纹理细节模糊。

核心思路：Hi3D的核心思路是将单张图像到多视角图像的生成问题转化为一个3D感知的序列图像生成问题，即模拟一个围绕物体的轨道视频生成过程。通过利用视频扩散模型中固有的时间一致性，可以有效地约束生成的多视角图像在几何上保持一致。

技术框架：Hi3D的整体框架包含以下几个主要阶段：1) 3D感知视频扩散模型：使用相机姿态作为条件，增强预训练的视频扩散模型，生成低分辨率的多视角图像。2) 3D感知视频到视频精炼器：学习一个精炼器，将低分辨率的多视角图像提升到高分辨率，并增强纹理细节。3) 新视角合成：使用3D高斯溅射技术，从生成的多视角图像中合成新的视角，进一步增强数据集。4) 3D重建：利用增强后的多视角图像数据集，进行3D重建，得到高保真度的网格模型。

关键创新：Hi3D的关键创新在于将视频扩散模型应用于图像到3D生成任务，并引入了3D感知先验和视频到视频精炼器。这种方法有效地利用了视频扩散模型的时间一致性，从而保证了生成的多视角图像在几何上的一致性，并能够生成具有高分辨率纹理细节的3D模型。

关键设计：Hi3D的关键设计包括：1) 使用相机姿态作为条件，训练视频扩散模型，使其具有3D感知能力。2) 设计一个3D感知的视频到视频精炼器，用于提升图像分辨率和增强纹理细节。3) 使用3D高斯溅射技术进行新视角合成，增加训练数据的多样性。具体的损失函数和网络结构等细节在论文中有详细描述，但此处未提供。

🖼️ 关键图片

📊 实验亮点

Hi3D在 novel view synthesis 和 single view reconstruction 任务上都取得了显著的性能提升。实验结果表明，Hi3D能够生成具有更高质量和更细节纹理的3D模型，并且在多视角一致性方面优于现有方法。具体性能数据和对比基线在论文中有详细描述，但此处未提供。

🎯 应用场景

Hi3D在游戏开发、虚拟现实、增强现实、电商展示等领域具有广泛的应用前景。它可以根据单张图像快速生成高质量的3D模型，降低了3D内容创作的门槛，并能够为用户提供更加逼真和沉浸式的体验。未来，Hi3D有望应用于自动驾驶、机器人导航等领域，为这些应用提供更加准确和可靠的3D环境感知能力。

📄 摘要（原文）

Despite having tremendous progress in image-to-3D generation, existing methods still struggle to produce multi-view consistent images with high-resolution textures in detail, especially in the paradigm of 2D diffusion that lacks 3D awareness. In this work, we present High-resolution Image-to-3D model (Hi3D), a new video diffusion based paradigm that redefines a single image to multi-view images as 3D-aware sequential image generation (i.e., orbital video generation). This methodology delves into the underlying temporal consistency knowledge in video diffusion model that generalizes well to geometry consistency across multiple views in 3D generation. Technically, Hi3D first empowers the pre-trained video diffusion model with 3D-aware prior (camera pose condition), yielding multi-view images with low-resolution texture details. A 3D-aware video-to-video refiner is learnt to further scale up the multi-view images with high-resolution texture details. Such high-resolution multi-view images are further augmented with novel views through 3D Gaussian Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D reconstruction. Extensive experiments on both novel view synthesis and single view reconstruction demonstrate that our Hi3D manages to produce superior multi-view consistency images with highly-detailed textures. Source code and data are available at \url{https://github.com/yanghb22-fdu/Hi3D-Official}.

Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理