MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

📄 arXiv: 2406.10163v2 📥 PDF

作者: Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang

分类: cs.CV, cs.AI

发布日期: 2024-06-14 (更新: 2024-10-09)

备注: Project Page: https://buaacyw.github.io/mesh-anything/ Code: https://github.com/buaacyw/MeshAnything


💡 一句话要点

MeshAnything:利用自回归Transformer生成艺术家级别网格模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 网格生成 自回归模型 Transformer VQ-VAE 3D建模 计算机图形学 形状表示

📋 核心要点

  1. 现有网格提取方法依赖于密集的三角面,忽略了几何特征,导致效率低、后处理复杂,且表示质量不高。
  2. MeshAnything将网格提取视为生成问题,通过形状条件的自回归Transformer生成高质量的艺术家级别网格模型。
  3. 实验表明,MeshAnything生成的网格面数显著减少,提高了存储、渲染和模拟效率,同时保持了与现有方法相当的精度。

📝 摘要(中文)

当前通过重建和生成创建的3D资产在质量上已经可以媲美手工制作的资产,显示出替代它们的潜力。然而,由于这些资产总是需要转换为网格才能应用于3D行业,而当前网格提取方法生成的网格远不如艺术家创建的网格(AMs),因此这一潜力尚未充分实现。具体来说,当前的网格提取方法依赖于密集的面,忽略了几何特征,导致效率低下、后处理复杂和表示质量较低。为了解决这些问题,我们引入了MeshAnything,该模型将网格提取视为一个生成问题,生成与指定形状对齐的AMs。通过将任何3D表示形式的3D资产转换为AMs,MeshAnything可以与各种3D资产生产方法集成,从而增强它们在3D行业中的应用。MeshAnything的架构包括一个VQ-VAE和一个形状条件的仅解码器Transformer。我们首先使用VQ-VAE学习网格词汇表,然后在该词汇表上训练形状条件的仅解码器Transformer,用于形状条件的自回归网格生成。我们的大量实验表明,我们的方法生成的AMs的面数减少了数百倍,显著提高了存储、渲染和模拟效率,同时实现了与以前方法相当的精度。

🔬 方法详解

问题定义:论文旨在解决现有3D资产生产流程中,自动网格提取方法生成的网格质量远低于艺术家手工创建网格的问题。现有方法生成的网格通常面数过多,忽略了几何特征,导致存储、渲染和模拟效率低下,且需要复杂的后处理。

核心思路:论文的核心思路是将网格生成视为一个自回归生成问题,利用Transformer模型学习艺术家创建网格的模式,并根据输入的3D形状条件生成高质量的网格。这种方法旨在生成面数更少、更能捕捉几何特征的网格,从而提高效率和质量。

技术框架:MeshAnything的整体架构包含两个主要模块:VQ-VAE(Vector Quantized Variational Autoencoder)和形状条件的仅解码器Transformer。首先,VQ-VAE用于学习一个离散的网格词汇表,将复杂的网格结构编码为一系列离散的token。然后,形状条件的仅解码器Transformer基于输入的3D形状和VQ-VAE生成的token序列,自回归地生成新的网格token序列,从而生成最终的网格模型。

关键创新:论文的关键创新在于将网格生成问题转化为一个序列生成问题,并利用Transformer模型强大的序列建模能力来学习和生成高质量的网格。与传统的网格提取方法不同,MeshAnything不依赖于密集的三角面,而是学习艺术家创建网格的内在结构和模式,从而生成更简洁、更高效的网格表示。

关键设计:VQ-VAE的设计用于学习网格的离散表示,其量化过程至关重要。形状条件的Transformer通过将形状信息融入到解码过程中,引导网格的生成。具体的损失函数和网络结构细节(如Transformer的层数、注意力机制等)在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MeshAnything生成的网格模型面数比现有方法减少了数百倍,显著提高了存储、渲染和模拟效率。同时,MeshAnything在精度方面达到了与现有方法相当的水平。这些结果表明,MeshAnything在网格生成方面具有显著的优势。

🎯 应用场景

MeshAnything具有广泛的应用前景,包括游戏开发、电影制作、虚拟现实/增强现实、3D打印等领域。它可以用于快速生成高质量的3D模型,降低3D资产制作的成本和时间,并提高3D应用的性能。该技术还有潜力应用于3D扫描数据的自动网格重建,以及基于草图的3D模型生成。

📄 摘要(原文)

Recently, 3D assets created via reconstruction and generation have matched the quality of manually crafted assets, highlighting their potential for replacement. However, this potential is largely unrealized because these assets always need to be converted to meshes for 3D industry applications, and the meshes produced by current mesh extraction methods are significantly inferior to Artist-Created Meshes (AMs), i.e., meshes created by human artists. Specifically, current mesh extraction methods rely on dense faces and ignore geometric features, leading to inefficiencies, complicated post-processing, and lower representation quality. To address these issues, we introduce MeshAnything, a model that treats mesh extraction as a generation problem, producing AMs aligned with specified shapes. By converting 3D assets in any 3D representation into AMs, MeshAnything can be integrated with various 3D asset production methods, thereby enhancing their application across the 3D industry. The architecture of MeshAnything comprises a VQ-VAE and a shape-conditioned decoder-only transformer. We first learn a mesh vocabulary using the VQ-VAE, then train the shape-conditioned decoder-only transformer on this vocabulary for shape-conditioned autoregressive mesh generation. Our extensive experiments show that our method generates AMs with hundreds of times fewer faces, significantly improving storage, rendering, and simulation efficiencies, while achieving precision comparable to previous methods.