DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation
作者: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Zuxuan Wu, Yu-Gang Jiang, Tao Mei
分类: cs.CV, cs.MM
发布日期: 2024-09-11
备注: ECCV 2024. Project page is available at \url{https://dreammesh.github.io}
💡 一句话要点
DreamMesh:联合操纵和纹理化三角网格,实现高质量文本到3D生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 文本到3D生成 三角网格 扩散模型 显式表示 几何建模
📋 核心要点
- 现有基于NeRF的文本到3D生成方法缺乏对网格和纹理的显式建模,导致表面噪声大、纹理细节模糊以及视角不一致等问题。
- DreamMesh通过由粗到精的策略,首先变形网格,然后使用2D扩散模型进行纹理化,最后联合优化网格和纹理,生成高质量的显式3D模型。
- 实验结果表明,DreamMesh在生成具有丰富文本细节和增强几何体的3D内容方面,显著优于现有文本到3D生成方法。
📝 摘要(中文)
本文提出DreamMesh,一种新颖的文本到3D生成架构,它基于定义良好的表面(三角网格)来生成高保真的显式3D模型。DreamMesh采用独特的由粗到精的方案。在粗略阶段,首先通过文本引导的雅可比矩阵来变形网格,然后DreamMesh以一种免调优的方式,从多个视点交错使用2D扩散模型来纹理化网格。在精细阶段,DreamMesh联合操纵网格并细化纹理贴图,从而生成具有高保真纹理材质的高质量三角网格。大量实验表明,DreamMesh在忠实地生成具有更丰富的文本细节和增强的几何体的3D内容方面,显著优于最先进的文本到3D方法。
🔬 方法详解
问题定义:现有基于NeRF的文本到3D生成方法,由于其隐式表达方式,缺乏对表面网格和纹理的直接控制。这导致生成的三维模型表面可能存在噪声,纹理细节模糊,并且在不同视角下观察时可能出现不一致性。因此,如何生成具有清晰表面和高质量纹理的3D模型是一个关键问题。
核心思路:DreamMesh的核心思路是利用显式的三角网格作为3D模型的表示形式,并结合2D扩散模型强大的生成能力,通过由粗到精的策略逐步优化网格的几何形状和纹理。这种显式表示方式能够更好地控制模型的表面质量和纹理细节,从而提高生成模型的逼真度和一致性。
技术框架:DreamMesh的整体框架包含两个主要阶段:粗略阶段和精细阶段。在粗略阶段,首先使用文本引导的雅可比矩阵对初始网格进行变形,使其初步符合文本描述。然后,利用2D扩散模型从多个视角对变形后的网格进行纹理化。在精细阶段,DreamMesh联合操纵网格的顶点位置和纹理贴图,通过优化损失函数进一步提升模型的几何细节和纹理质量。
关键创新:DreamMesh的关键创新在于将显式的三角网格表示与2D扩散模型相结合,实现对3D模型几何形状和纹理的联合控制。与传统的基于NeRF的方法相比,DreamMesh能够生成具有更清晰表面和更高质量纹理的3D模型。此外,DreamMesh采用的由粗到精的策略能够有效地提高生成效率和模型质量。
关键设计:在粗略阶段,文本引导的雅可比矩阵用于控制网格的变形方向和幅度。在纹理化阶段,DreamMesh使用预训练的2D扩散模型,并结合多视角渲染技术,生成与文本描述一致的纹理贴图。在精细阶段,DreamMesh通过优化包括几何损失、纹理损失和文本对齐损失在内的损失函数,联合优化网格的顶点位置和纹理贴图。具体的损失函数形式和优化算法的细节在论文中有更详细的描述。
🖼️ 关键图片
📊 实验亮点
DreamMesh在文本到3D生成任务上取得了显著的性能提升。实验结果表明,DreamMesh生成的3D模型在几何细节和纹理质量方面均优于现有的最先进方法。具体来说,DreamMesh能够生成具有更清晰的表面和更丰富的纹理细节的3D模型,并且在不同视角下观察时具有更好的一致性。定性和定量结果均验证了DreamMesh的有效性。
🎯 应用场景
DreamMesh在游戏开发、虚拟现实、产品设计等领域具有广泛的应用前景。它可以根据文本描述快速生成高质量的3D模型,从而降低3D内容创作的门槛,提高创作效率。此外,DreamMesh还可以用于生成个性化的3D头像、虚拟角色等,为用户提供更加丰富的交互体验。未来,DreamMesh有望成为3D内容创作的重要工具。
📄 摘要(原文)
Learning radiance fields (NeRF) with powerful 2D diffusion models has garnered popularity for text-to-3D generation. Nevertheless, the implicit 3D representations of NeRF lack explicit modeling of meshes and textures over surfaces, and such surface-undefined way may suffer from the issues, e.g., noisy surfaces with ambiguous texture details or cross-view inconsistency. To alleviate this, we present DreamMesh, a novel text-to-3D architecture that pivots on well-defined surfaces (triangle meshes) to generate high-fidelity explicit 3D model. Technically, DreamMesh capitalizes on a distinctive coarse-to-fine scheme. In the coarse stage, the mesh is first deformed by text-guided Jacobians and then DreamMesh textures the mesh with an interlaced use of 2D diffusion models in a tuning free manner from multiple viewpoints. In the fine stage, DreamMesh jointly manipulates the mesh and refines the texture map, leading to high-quality triangle meshes with high-fidelity textured materials. Extensive experiments demonstrate that DreamMesh significantly outperforms state-of-the-art text-to-3D methods in faithfully generating 3D content with richer textual details and enhanced geometry. Our project page is available at https://dreammesh.github.io.