DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation

作者: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Zuxuan Wu, Yu-Gang Jiang, Tao Mei

分类: cs.CV, cs.MM

发布日期: 2024-09-11

备注: ECCV 2024. Project page is available at \url{https://dreammesh.github.io}

💡 一句话要点

DreamMesh：联合操纵和纹理化三角网格，实现高质量文本到3D生成

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 文本到3D生成 三角网格 扩散模型 显式表示 几何建模

📋 核心要点

现有基于NeRF的文本到3D生成方法缺乏对网格和纹理的显式建模，导致表面噪声大、纹理细节模糊以及视角不一致等问题。
DreamMesh通过由粗到精的策略，首先变形网格，然后使用2D扩散模型进行纹理化，最后联合优化网格和纹理，生成高质量的显式3D模型。
实验结果表明，DreamMesh在生成具有丰富文本细节和增强几何体的3D内容方面，显著优于现有文本到3D生成方法。

📝 摘要（中文）

本文提出DreamMesh，一种新颖的文本到3D生成架构，它基于定义良好的表面（三角网格）来生成高保真的显式3D模型。DreamMesh采用独特的由粗到精的方案。在粗略阶段，首先通过文本引导的雅可比矩阵来变形网格，然后DreamMesh以一种免调优的方式，从多个视点交错使用2D扩散模型来纹理化网格。在精细阶段，DreamMesh联合操纵网格并细化纹理贴图，从而生成具有高保真纹理材质的高质量三角网格。大量实验表明，DreamMesh在忠实地生成具有更丰富的文本细节和增强的几何体的3D内容方面，显著优于最先进的文本到3D方法。

🔬 方法详解

问题定义：现有基于NeRF的文本到3D生成方法，由于其隐式表达方式，缺乏对表面网格和纹理的直接控制。这导致生成的三维模型表面可能存在噪声，纹理细节模糊，并且在不同视角下观察时可能出现不一致性。因此，如何生成具有清晰表面和高质量纹理的3D模型是一个关键问题。

核心思路：DreamMesh的核心思路是利用显式的三角网格作为3D模型的表示形式，并结合2D扩散模型强大的生成能力，通过由粗到精的策略逐步优化网格的几何形状和纹理。这种显式表示方式能够更好地控制模型的表面质量和纹理细节，从而提高生成模型的逼真度和一致性。

技术框架：DreamMesh的整体框架包含两个主要阶段：粗略阶段和精细阶段。在粗略阶段，首先使用文本引导的雅可比矩阵对初始网格进行变形，使其初步符合文本描述。然后，利用2D扩散模型从多个视角对变形后的网格进行纹理化。在精细阶段，DreamMesh联合操纵网格的顶点位置和纹理贴图，通过优化损失函数进一步提升模型的几何细节和纹理质量。

关键创新：DreamMesh的关键创新在于将显式的三角网格表示与2D扩散模型相结合，实现对3D模型几何形状和纹理的联合控制。与传统的基于NeRF的方法相比，DreamMesh能够生成具有更清晰表面和更高质量纹理的3D模型。此外，DreamMesh采用的由粗到精的策略能够有效地提高生成效率和模型质量。

关键设计：在粗略阶段，文本引导的雅可比矩阵用于控制网格的变形方向和幅度。在纹理化阶段，DreamMesh使用预训练的2D扩散模型，并结合多视角渲染技术，生成与文本描述一致的纹理贴图。在精细阶段，DreamMesh通过优化包括几何损失、纹理损失和文本对齐损失在内的损失函数，联合优化网格的顶点位置和纹理贴图。具体的损失函数形式和优化算法的细节在论文中有更详细的描述。

🖼️ 关键图片

📊 实验亮点

DreamMesh在文本到3D生成任务上取得了显著的性能提升。实验结果表明，DreamMesh生成的3D模型在几何细节和纹理质量方面均优于现有的最先进方法。具体来说，DreamMesh能够生成具有更清晰的表面和更丰富的纹理细节的3D模型，并且在不同视角下观察时具有更好的一致性。定性和定量结果均验证了DreamMesh的有效性。

🎯 应用场景

DreamMesh在游戏开发、虚拟现实、产品设计等领域具有广泛的应用前景。它可以根据文本描述快速生成高质量的3D模型，从而降低3D内容创作的门槛，提高创作效率。此外，DreamMesh还可以用于生成个性化的3D头像、虚拟角色等，为用户提供更加丰富的交互体验。未来，DreamMesh有望成为3D内容创作的重要工具。

📄 摘要（原文）

Learning radiance fields (NeRF) with powerful 2D diffusion models has garnered popularity for text-to-3D generation. Nevertheless, the implicit 3D representations of NeRF lack explicit modeling of meshes and textures over surfaces, and such surface-undefined way may suffer from the issues, e.g., noisy surfaces with ambiguous texture details or cross-view inconsistency. To alleviate this, we present DreamMesh, a novel text-to-3D architecture that pivots on well-defined surfaces (triangle meshes) to generate high-fidelity explicit 3D model. Technically, DreamMesh capitalizes on a distinctive coarse-to-fine scheme. In the coarse stage, the mesh is first deformed by text-guided Jacobians and then DreamMesh textures the mesh with an interlaced use of 2D diffusion models in a tuning free manner from multiple viewpoints. In the fine stage, DreamMesh jointly manipulates the mesh and refines the texture map, leading to high-quality triangle meshes with high-fidelity textured materials. Extensive experiments demonstrate that DreamMesh significantly outperforms state-of-the-art text-to-3D methods in faithfully generating 3D content with richer textual details and enhanced geometry. Our project page is available at https://dreammesh.github.io.

DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理