LDM: Large Tensorial SDF Model for Textured Mesh Generation
作者: Rengan Xie, Wenting Zheng, Kai Huang, Yizheng Chen, Qi Wang, Qi Ye, Wei Chen, Yuchi Huo
分类: cs.GR
发布日期: 2024-05-23 (更新: 2024-10-14)
💡 一句话要点
LDM:提出一种基于张量SDF的大型模型,用于生成带纹理的网格模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D网格生成 扩散模型 SDF场 Transformer 多视角学习
📋 核心要点
- 现有方法主要采用NeRF或3D高斯表示,难以生成现代渲染管线所需的光滑、高质量几何体。
- LDM利用多视角扩散模型生成稀疏多视角输入,并训练Transformer预测张量SDF场,最后进行网格优化。
- 实验表明,LDM能够快速生成多样且高质量的3D网格模型,并具有光照解耦的RGB纹理。
📝 摘要(中文)
本文提出了一种名为LDM的新型前馈框架,能够从单张图像或文本提示生成高保真、光照解耦的带纹理网格模型。该方法首先利用多视角扩散模型从单张图像或文本提示生成稀疏的多视角输入,然后训练一个基于Transformer的模型,从这些稀疏的多视角图像输入中预测张量SDF场。最后,采用基于梯度的网格优化层来细化该模型,使其能够生成高质量的带纹理网格模型,并从中提取SDF场。大量实验表明,该方法可以在几秒钟内生成多样、高质量的3D网格模型,并具有相应的分解RGB纹理。
🔬 方法详解
问题定义:论文旨在解决从单张图像或文本提示生成高质量、光照解耦的带纹理3D网格模型的问题。现有方法,如基于NeRF或3D高斯的模型,难以生成满足现代渲染管线要求的光滑几何体,并且在纹理质量和光照解耦方面存在局限性。
核心思路:LDM的核心思路是利用多视角扩散模型生成多视角信息,然后通过Transformer学习从多视角信息到SDF场的映射,最后通过梯度优化来提升网格质量。这种方法结合了扩散模型的生成能力、Transformer的学习能力和SDF场的几何表示能力,从而实现高质量的3D网格生成。
技术框架:LDM的整体框架包含三个主要阶段:1) 多视角扩散模型:从单张图像或文本提示生成稀疏的多视角图像;2) 基于Transformer的SDF预测模型:将多视角图像作为输入,预测张量SDF场;3) 网格优化层:利用梯度下降优化网格,提高几何质量和纹理细节。
关键创新:LDM的关键创新在于:1) 提出了一种基于张量SDF的表示方法,能够更好地捕捉几何细节;2) 利用多视角扩散模型生成多视角信息,克服了单视角输入的局限性;3) 采用基于Transformer的模型学习多视角信息到SDF场的映射,提高了模型的表达能力。
关键设计:在多视角扩散模型中,使用了预训练的扩散模型进行微调,以适应多视角生成任务。在Transformer模型中,采用了注意力机制来学习多视角图像之间的关系。在网格优化层中,使用了基于梯度的优化算法,并设计了合适的损失函数来提高网格质量和纹理细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LDM能够生成高质量的3D网格模型,在几何细节和纹理质量方面优于现有方法。该方法能够在几秒钟内生成模型,显著提高了生成效率。此外,LDM生成的纹理具有良好的光照解耦性,方便后续的渲染和编辑。
🎯 应用场景
LDM可应用于游戏开发、电影制作、虚拟现实/增强现实等领域,能够快速生成高质量的3D模型资源,降低内容创作成本。该技术还有潜力应用于3D扫描重建、工业设计等领域,具有广阔的应用前景。
📄 摘要(原文)
Previous efforts have managed to generate production-ready 3D assets from text or images. However, these methods primarily employ NeRF or 3D Gaussian representations, which are not adept at producing smooth, high-quality geometries required by modern rendering pipelines. In this paper, we propose LDM, a novel feed-forward framework capable of generating high-fidelity, illumination-decoupled textured mesh from a single image or text prompts. We firstly utilize a multi-view diffusion model to generate sparse multi-view inputs from single images or text prompts, and then a transformer-based model is trained to predict a tensorial SDF field from these sparse multi-view image inputs. Finally, we employ a gradient-based mesh optimization layer to refine this model, enabling it to produce an SDF field from which high-quality textured meshes can be extracted. Extensive experiments demonstrate that our method can generate diverse, high-quality 3D mesh assets with corresponding decomposed RGB textures within seconds.