Learning to Build Shapes by Extrusion

📄 arXiv: 2601.22858v1 📥 PDF

作者: Thor Vestergaard Christiansen, Karran Pandey, Alba Reinders, Karan Singh, Morten Rieger Hannemose, J. Andreas Bærentzen

分类: cs.GR, cs.AI

发布日期: 2026-01-30

备注: A preprint


💡 一句话要点

提出基于文本编码挤压(TEE)的3D网格生成方法,解决传统方法面数固定和易产生非流形网格的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D网格生成 挤压操作 大型语言模型 流形网格 文本编码 网格编辑 形状合成

📋 核心要点

  1. 现有基于Transformer的网格生成模型通常输出固定面数的网格,且容易产生非流形网格,限制了其应用。
  2. 本文提出一种基于文本编码挤压(TEE)的网格表示方法,并利用大型语言模型学习网格的构建过程,从而生成3D网格。
  3. 实验表明,该方法能够实现网格重建、新形状合成,以及对现有网格进行编辑和添加新特征等功能。

📝 摘要(中文)

本文提出了一种基于文本的编码挤压(TEE)表示方法,该方法将网格构建表示为面挤压序列,而非多边形列表。同时,本文提出了一种利用大型语言模型(LLM)从TEE生成3D网格的方法。通过学习组装网格的挤压序列(类似于艺术家创建网格的方式),我们的方法自然地支持任意输出面数,并且从设计上产生流形网格,这与最近基于Transformer的模型形成对比。学习到的挤压序列也可以应用于现有的网格,从而实现生成之外的编辑功能。为了训练我们的模型,我们将一个包含非自相交面循环的四边形网格库分解为组成循环(可以看作是它们的构建块),并对LLM进行微调,使其能够通过执行一系列挤压来重新组装网格。我们证明了我们的表示方法能够实现重建、新颖的形状合成以及向现有网格添加新特征。

🔬 方法详解

问题定义:现有基于Transformer的3D网格生成方法通常存在两个主要问题:一是输出网格的面数固定,难以适应不同复杂度的形状;二是容易生成非流形网格,即存在自相交或不连续的表面,影响了网格的质量和可用性。这些问题限制了现有方法在实际应用中的范围。

核心思路:本文的核心思路是将3D网格的构建过程模拟为一系列的面挤压操作,类似于艺术家手工创建网格的过程。通过学习这些挤压序列,模型可以逐步地构建出复杂的3D形状。这种基于挤压的表示方法天然地支持任意面数的输出,并且可以保证生成的网格是流形的。

技术框架:该方法主要包含两个核心部分:一是文本编码挤压(TEE)表示,用于将3D网格表示为一系列的挤压操作序列;二是基于大型语言模型(LLM)的网格生成器,用于学习从TEE到3D网格的映射关系。训练过程中,首先将已有的3D网格分解为一系列的循环面,然后将这些循环面以及它们之间的挤压关系转化为文本序列,最后使用LLM来学习这些文本序列,从而实现网格的生成。

关键创新:该方法最重要的创新点在于提出了基于挤压操作的网格表示方法。与传统的基于多边形列表的表示方法相比,挤压操作能够更好地描述网格的构建过程,并且天然地保证了网格的流形性。此外,利用LLM来学习网格的生成过程,使得模型能够生成更加复杂和多样化的3D形状。

关键设计:在TEE表示中,每个挤压操作都包含挤压的方向、距离等参数。为了训练LLM,需要将3D网格分解为一系列的循环面,并计算它们之间的挤压关系。具体而言,作者使用了一个四边形网格库,并将其分解为组成循环。然后,他们微调了一个LLM,使其能够通过执行一系列挤压来重新组装网格。损失函数的设计需要考虑生成的网格与原始网格之间的差异,以及网格的流形性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效地重建已有的3D网格,并生成新的、具有复杂结构的3D形状。与传统的基于Transformer的方法相比,该方法能够生成任意面数的网格,并且能够保证网格的流形性。此外,该方法还能够应用于网格编辑,例如向现有网格添加新的特征。

🎯 应用场景

该研究成果可应用于3D建模、游戏开发、虚拟现实、计算机辅助设计等领域。通过学习挤压序列,可以自动生成各种复杂的3D模型,提高建模效率。此外,该方法还可以用于网格编辑和修复,例如向现有网格添加新的特征或修复非流形区域。未来,该方法有望成为一种通用的3D内容生成工具。

📄 摘要(原文)

We introduce Text Encoded Extrusion (TEE), a text-based representation that expresses mesh construction as sequences of face extrusions rather than polygon lists, and a method for generating 3D meshes from TEE using a large language model (LLM). By learning extrusion sequences that assemble a mesh, similar to the way artists create meshes, our approach naturally supports arbitrary output face counts and produces manifold meshes by design, in contrast to recent transformer-based models. The learnt extrusion sequences can also be applied to existing meshes - enabling editing in addition to generation. To train our model, we decompose a library of quadrilateral meshes with non-self-intersecting face loops into constituent loops, which can be viewed as their building blocks, and finetune an LLM on the steps for reassembling the meshes by performing a sequence of extrusions. We demonstrate that our representation enables reconstruction, novel shape synthesis, and the addition of new features to existing meshes.