DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation
作者: Ze-Xin Yin, Jiaxiong Qiu, Liu Liu, Xinjie Wang, Wei Sui, Zhizhong Su, Jian Yang, Jin Xie
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出LGAA框架,利用多视角扩散模型高效生成具备PBR材质的3D资产
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D资产生成 多视角扩散模型 PBR材质 高斯溅射 变分自编码器
📋 核心要点
- 现有3D生成方法主要关注几何建模,纹理处理依赖图像扩散模型后处理,缺乏端到端的PBR材质3D资产生成方案。
- LGAA框架通过复用多视角扩散模型的网络层,并引入Switcher和Decoder模块,统一了几何和PBR材质的建模。
- 实验结果表明,LGAA在文本和图像条件下的多视角扩散模型中均表现出优越的性能,并能高效地利用数据进行微调。
📝 摘要(中文)
本文提出轻量级高斯资产适配器(LGAA),旨在实现端到端的、具备基于物理渲染(PBR)材质的3D资产自动生成流程。LGAA通过一种新颖的视角统一了几何建模和PBR材质建模,充分利用了多视角(MV)扩散先验。LGAA采用模块化设计,包含三个组件:LGAA Wrapper复用并适配MV扩散模型的网络层,从而利用数十亿图像中学习到的知识,以数据高效的方式实现更好的收敛;LGAA Switcher对齐多个LGAA Wrapper层,以融合不同的几何和PBR合成扩散先验;LGAA Decoder是一个经过调整的变分自编码器(VAE),用于预测带有PBR通道的2D高斯溅射(2DGS)。最后,引入专门的后处理程序,从生成的2DGS中有效地提取高质量、可重新光照的网格资产。大量的定量和定性实验表明,LGAA在使用文本和图像条件MV扩散模型时均表现出卓越的性能。此外,模块化设计能够灵活地整合多个扩散先验,知识保留方案有效地保留了在海量图像数据集上学习到的2D先验,从而能够以数据高效的方式进行微调,仅使用69k多视角实例即可提升MV扩散模型以用于3D生成。
🔬 方法详解
问题定义:现有3D资产生成方法主要集中在几何形状的建模,而纹理通常被烘焙到简单的顶点颜色中,或者需要通过图像扩散模型进行后处理。这导致无法直接生成具有物理渲染(PBR)材质的3D资产,限制了3D内容创作的自动化程度。现有方法缺乏对几何和材质的统一建模能力,且数据效率较低。
核心思路:本文的核心思路是利用预训练的多视角(MV)扩散模型中蕴含的丰富图像先验知识,通过适配和微调这些模型,使其能够同时生成几何形状和PBR材质。通过模块化的设计,可以灵活地组合不同的扩散先验,并利用少量数据进行高效的3D资产生成。
技术框架:LGAA框架包含三个主要模块:LGAA Wrapper、LGAA Switcher和LGAA Decoder。LGAA Wrapper负责复用和适配MV扩散模型的网络层,提取图像特征。LGAA Switcher用于对齐多个LGAA Wrapper层,融合不同的扩散先验。LGAA Decoder是一个变分自编码器(VAE),用于将提取的特征解码为带有PBR通道的2D高斯溅射(2DGS)表示。最后,通过后处理步骤从2DGS中提取高质量的网格资产。
关键创新:LGAA的关键创新在于其模块化的设计和知识保留方案。通过LGAA Wrapper,可以有效地复用预训练MV扩散模型的知识,避免从头开始训练,从而提高了数据效率。LGAA Switcher实现了对多个扩散先验的灵活组合,使得模型能够同时学习几何和材质的表示。
关键设计:LGAA Decoder采用变分自编码器(VAE)结构,用于将提取的特征解码为2DGS表示。损失函数包括重建损失和KL散度损失,用于保证生成结果的质量和多样性。后处理步骤包括高斯滤波、网格提取和材质优化等,用于生成高质量的网格资产。论文中使用了69k多视角实例进行微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LGAA框架在生成具有PBR材质的3D资产方面表现出色,能够生成高质量的几何形状和逼真的材质。与现有方法相比,LGAA在数据效率方面具有显著优势,仅使用69k多视角实例即可实现良好的性能。定性和定量结果均验证了LGAA的有效性。
🎯 应用场景
该研究成果可应用于游戏开发、虚拟现实、增强现实、电商展示等领域,实现3D资产的自动生成,降低3D内容创作的成本和门槛。未来可进一步扩展到更复杂的场景和材质,并结合用户交互实现个性化的3D资产定制。
📄 摘要(原文)
The labor- and experience-intensive creation of 3D assets with physically based rendering (PBR) materials demands an autonomous 3D asset creation pipeline. However, most existing 3D generation methods focus on geometry modeling, either baking textures into simple vertex colors or leaving texture synthesis to post-processing with image diffusion models. To achieve end-to-end PBR-ready 3D asset generation, we present Lightweight Gaussian Asset Adapter (LGAA), a novel framework that unifies the modeling of geometry and PBR materials by exploiting multi-view (MV) diffusion priors from a novel perspective. The LGAA features a modular design with three components. Specifically, the LGAA Wrapper reuses and adapts network layers from MV diffusion models, which encapsulate knowledge acquired from billions of images, enabling better convergence in a data-efficient manner. To incorporate multiple diffusion priors for geometry and PBR synthesis, the LGAA Switcher aligns multiple LGAA Wrapper layers encapsulating different knowledge. Then, a tamed variational autoencoder (VAE), termed LGAA Decoder, is designed to predict 2D Gaussian Splatting (2DGS) with PBR channels. Finally, we introduce a dedicated post-processing procedure to effectively extract high-quality, relightable mesh assets from the resulting 2DGS. Extensive quantitative and qualitative experiments demonstrate the superior performance of LGAA with both text- and image-conditioned MV diffusion models. Additionally, the modular design enables flexible incorporation of multiple diffusion priors, and the knowledge-preserving scheme effectively preseves the 2D priors learned on massive image dataset, which leads to data efficient finetuning to lift the MV diffuison models for 3D generation with merely 69k multi-view instances.