MeshXL: Neural Coordinate Field for Generative 3D Foundation Models

📄 arXiv: 2405.20853v2 📥 PDF

作者: Sijin Chen, Xin Chen, Anqi Pang, Xianfang Zeng, Wei Cheng, Yijun Fu, Fukun Yin, Yanru Wang, Zhibin Wang, Chi Zhang, Jingyi Yu, Gang Yu, Bin Fu, Tao Chen

分类: cs.CV

发布日期: 2024-05-31 (更新: 2024-06-18)


💡 一句话要点

MeshXL:提出基于神经坐标场的生成式3D基础模型,用于高质量网格生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D网格生成 神经坐标场 自回归模型 生成式模型 基础模型

📋 核心要点

  1. 直接生成高质量3D网格面临挑战,因为网格数据是非结构化的图表示,难以直接建模。
  2. MeshXL利用神经坐标场(NeurCF)将3D网格表示为序列,从而将网格生成转化为自回归序列生成问题。
  3. 实验结果表明,MeshXL能够生成高质量的3D网格,并可作为下游任务的基础模型。

📝 摘要(中文)

本文提出MeshXL,一种生成式预训练自回归模型,用于解决3D网格生成问题。3D数据的多边形网格表示具有灵活性、快速渲染速度和存储效率等优点,在各种应用中被广泛采用。然而,由于其非结构化的图表示,直接生成高质量的3D网格具有挑战性。幸运的是,通过预定义的排序策略,3D网格可以表示为序列,并且生成过程可以无缝地视为自回归问题。本文验证了神经坐标场(NeurCF),一种具有隐式神经嵌入的显式坐标表示,是一种简单而有效的用于大规模顺序网格建模的表示。大量实验表明,MeshXL能够生成高质量的3D网格,并且可以作为各种下游应用的基础模型。

🔬 方法详解

问题定义:论文旨在解决直接生成高质量3D网格的难题。现有方法难以处理网格数据非结构化的图表示,导致生成质量受限。

核心思路:论文的核心思路是将3D网格表示为序列,从而将复杂的网格生成问题转化为自回归序列生成问题。通过预定义的排序策略,可以将网格数据转化为有序的序列,进而利用自回归模型进行学习和生成。

技术框架:MeshXL的技术框架主要包括以下几个部分:首先,使用神经坐标场(NeurCF)对3D网格进行表示,将网格的几何信息编码到坐标场中。然后,利用预定义的排序策略将坐标场转化为序列。最后,使用大型语言模型(LLM)对序列进行自回归建模,实现网格的生成。

关键创新:MeshXL的关键创新在于将神经坐标场与自回归模型相结合,实现了一种新的3D网格生成方法。与现有方法相比,MeshXL能够更好地处理网格数据的非结构化特性,从而生成更高质量的3D网格。

关键设计:论文中使用了神经坐标场(NeurCF)作为网格的表示方法,NeurCF是一种显式的坐标表示,同时利用隐式的神经嵌入来增强表示能力。此外,论文还设计了一种预定义的排序策略,用于将网格数据转化为序列。在模型训练方面,论文采用了自回归的训练方式,并使用了大规模的数据集进行预训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MeshXL能够生成高质量的3D网格,在生成质量和多样性方面均优于现有方法。具体来说,MeshXL在多个数据集上取得了显著的性能提升,并且能够生成具有复杂拓扑结构的3D模型。此外,实验还验证了MeshXL作为基础模型在下游任务中的有效性。

🎯 应用场景

MeshXL作为一种生成式3D基础模型,具有广泛的应用前景。它可以应用于游戏开发、电影制作、工业设计、虚拟现实等领域,用于生成各种高质量的3D模型。此外,MeshXL还可以作为下游任务的基础模型,例如3D形状补全、3D形状编辑等,为这些任务提供强大的支持。MeshXL的出现有望推动3D内容创作的自动化和智能化。

📄 摘要(原文)

The polygon mesh representation of 3D data exhibits great flexibility, fast rendering speed, and storage efficiency, which is widely preferred in various applications. However, given its unstructured graph representation, the direct generation of high-fidelity 3D meshes is challenging. Fortunately, with a pre-defined ordering strategy, 3D meshes can be represented as sequences, and the generation process can be seamlessly treated as an auto-regressive problem. In this paper, we validate the Neural Coordinate Field (NeurCF), an explicit coordinate representation with implicit neural embeddings, is a simple-yet-effective representation for large-scale sequential mesh modeling. After that, we present MeshXL, a family of generative pre-trained auto-regressive models, which addresses the process of 3D mesh generation with modern large language model approaches. Extensive experiments show that MeshXL is able to generate high-quality 3D meshes, and can also serve as foundation models for various down-stream applications.