3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation

📄 arXiv: 2410.18974v2 📥 PDF

作者: Hansheng Chen, Bokui Shen, Yulin Liu, Ruoxi Shi, Linqi Zhou, Connor Z. Lin, Jiayuan Gu, Hao Su, Gordon Wetzstein, Leonidas Guibas

分类: cs.CV, cs.AI

发布日期: 2024-10-24 (更新: 2025-02-20)

备注: Project page: https://lakonik.github.io/3d-adapter/


💡 一句话要点

提出3D-Adapter,为图像扩散模型注入3D几何感知能力,提升三维生成质量。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 三维生成 扩散模型 几何一致性 多视角学习 神经渲染

📋 核心要点

  1. 现有基于2D图像扩散的三维生成方法缺乏内在的3D几何感知,导致生成的三维模型几何一致性较差。
  2. 3D-Adapter通过将中间多视角特征解码为3D表示,再将渲染的RGBD视图重新编码,以增强预训练的扩散模型。
  3. 实验表明,3D-Adapter显著提升了文本到多视角模型的几何质量,并能利用Stable Diffusion实现高质量三维生成。

📝 摘要(中文)

多视角图像扩散模型在开放域三维物体生成方面取得了显著进展。然而,现有模型大多依赖于缺乏内在三维偏差的二维网络架构,导致几何一致性受损。为了解决这一挑战,我们引入了3D-Adapter,一个旨在将三维几何感知融入预训练图像扩散模型的插件模块。我们方法的核心是三维反馈增强:在采样循环的每个去噪步骤中,3D-Adapter将中间多视角特征解码为连贯的三维表示,然后重新编码渲染的RGBD视图,通过特征添加来增强预训练的基础模型。我们研究了3D-Adapter的两种变体:一种基于高斯溅射的快速前馈版本,以及一种利用神经场和网格的通用免训练版本。大量的实验表明,3D-Adapter不仅极大地提高了文本到多视角模型(如Instant3D和Zero123++)的几何质量,而且还能够使用纯文本到图像的Stable Diffusion进行高质量的三维生成。此外,我们通过展示文本到三维、图像到三维、文本到纹理和文本到头像任务中的高质量结果,展示了3D-Adapter广泛的应用潜力。

🔬 方法详解

问题定义:现有基于多视角图像扩散的三维生成方法,由于其2D网络架构的固有局限性,难以保证生成结果的几何一致性。这些方法缺乏对三维空间结构的有效建模,导致生成的三维模型存在扭曲、变形等问题,影响了最终的生成质量。

核心思路:3D-Adapter的核心思路是在图像扩散模型的采样过程中,引入三维几何信息的反馈。通过将中间多视角特征解码为三维表示,并利用渲染的RGBD视图重新编码,将三维几何信息注入到预训练的二维扩散模型中,从而增强模型对三维结构的感知能力。这种反馈机制能够有效地纠正二维扩散过程中的几何偏差,提高生成结果的几何一致性。

技术框架:3D-Adapter作为一个插件模块,可以集成到现有的多视角图像扩散模型中。其主要流程包括:1) 从预训练的图像扩散模型中提取中间多视角特征;2) 利用3D-Adapter将这些特征解码为三维表示(例如,高斯溅射或神经场);3) 从三维表示中渲染RGBD视图;4) 将渲染的RGBD视图重新编码为特征向量;5) 将这些特征向量添加到预训练的图像扩散模型中,以增强其对三维几何信息的感知。

关键创新:3D-Adapter的关键创新在于其三维反馈增强机制。与传统的二维扩散模型相比,3D-Adapter能够显式地利用三维几何信息来指导扩散过程,从而提高生成结果的几何一致性。此外,3D-Adapter的插件式设计使其能够方便地集成到各种现有的多视角图像扩散模型中,而无需重新训练整个模型。

关键设计:3D-Adapter提供了两种变体:一种基于高斯溅射的快速前馈版本,另一种基于神经场和网格的通用免训练版本。基于高斯溅射的版本通过高效的渲染技术实现快速的三维重建和反馈。基于神经场和网格的版本则利用神经渲染技术实现高质量的三维重建,但计算成本较高。在特征添加过程中,可以使用不同的权重来控制三维几何信息对扩散过程的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,3D-Adapter能够显著提升现有文本到多视角模型的几何质量。例如,在Instant3D和Zero123++等模型上集成3D-Adapter后,生成的三维模型的几何一致性得到了显著改善。此外,3D-Adapter还能够利用Stable Diffusion实现高质量的三维生成,无需额外的三维训练数据。

🎯 应用场景

3D-Adapter具有广泛的应用前景,包括文本到三维模型生成、图像到三维模型重建、文本到纹理生成以及文本到虚拟人物生成等。该技术可以应用于游戏开发、虚拟现实、增强现实、工业设计等领域,为用户提供更加逼真和高质量的三维内容。

📄 摘要(原文)

Multi-view image diffusion models have significantly advanced open-domain 3D object generation. However, most existing models rely on 2D network architectures that lack inherent 3D biases, resulting in compromised geometric consistency. To address this challenge, we introduce 3D-Adapter, a plug-in module designed to infuse 3D geometry awareness into pretrained image diffusion models. Central to our approach is the idea of 3D feedback augmentation: for each denoising step in the sampling loop, 3D-Adapter decodes intermediate multi-view features into a coherent 3D representation, then re-encodes the rendered RGBD views to augment the pretrained base model through feature addition. We study two variants of 3D-Adapter: a fast feed-forward version based on Gaussian splatting and a versatile training-free version utilizing neural fields and meshes. Our extensive experiments demonstrate that 3D-Adapter not only greatly enhances the geometry quality of text-to-multi-view models such as Instant3D and Zero123++, but also enables high-quality 3D generation using the plain text-to-image Stable Diffusion. Furthermore, we showcase the broad application potential of 3D-Adapter by presenting high quality results in text-to-3D, image-to-3D, text-to-texture, and text-to-avatar tasks.