PartDiffuser: Part-wise 3D Mesh Generation via Discrete Diffusion

📄 arXiv: 2511.18801v1 📥 PDF

作者: Yichen Yang, Hong Li, Haodong Zhu, Linin Yang, Guojun Lei, Sheng Xu, Baochang Zhang

分类: cs.CV

发布日期: 2025-11-24


💡 一句话要点

PartDiffuser:通过离散扩散实现分部件的三维网格生成

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 三维网格生成 扩散模型 自回归模型 点云处理 几何建模

📋 核心要点

  1. 现有自回归网格生成方法难以兼顾全局结构和局部细节,且易累积误差。
  2. PartDiffuser采用分部件的半自回归扩散框架,兼顾全局拓扑和局部细节。
  3. 实验表明,PartDiffuser在生成具有丰富细节的3D网格方面优于SOTA模型。

📝 摘要(中文)

现有的用于生成艺术家设计的网格的自回归(AR)方法难以平衡全局结构一致性和高保真局部细节,并且容易出现误差累积。为了解决这个问题,我们提出了PartDiffuser,一种新颖的半自回归扩散框架,用于点云到网格的生成。该方法首先对网格进行语义分割,然后以“分部件”的方式进行操作:它在部件之间采用自回归以确保全局拓扑,同时在每个语义部件内利用并行离散扩散过程来精确地重建高频几何特征。PartDiffuser基于DiT架构,并引入了一种部件感知的交叉注意力机制,使用点云作为分层几何条件来动态地控制生成过程,从而有效地解耦全局和局部生成任务。实验表明,该方法在生成具有丰富细节的3D网格方面显著优于最先进(SOTA)的模型,展现出卓越的细节表示能力,适用于实际应用。

🔬 方法详解

问题定义:论文旨在解决三维网格生成中全局结构一致性和局部细节保真度难以兼顾的问题。现有的自回归方法在生成复杂网格时,容易出现误差累积,导致生成质量下降。此外,如何有效地利用点云信息来指导网格生成也是一个挑战。

核心思路:论文的核心思路是将网格生成过程分解为全局结构和局部细节两个部分,并分别采用不同的方法进行处理。全局结构通过部件间的自回归建模来保证,局部细节则通过部件内的并行离散扩散过程来精确重建。这种解耦的方式可以有效地平衡全局一致性和局部细节。

技术框架:PartDiffuser的整体框架包括以下几个主要步骤:1) 对输入点云进行语义分割,得到不同的部件;2) 使用自回归模型对部件之间的关系进行建模,确定全局拓扑结构;3) 在每个部件内部,使用并行离散扩散模型生成高精度的局部几何细节;4) 将各个部件组合起来,得到最终的完整网格。该框架基于DiT架构,并引入了部件感知的交叉注意力机制。

关键创新:PartDiffuser的关键创新在于其分部件的半自回归扩散框架。与传统的自回归方法相比,PartDiffuser可以更好地平衡全局结构和局部细节,避免误差累积。与传统的扩散模型相比,PartDiffuser通过部件间的自回归建模,可以更好地控制全局拓扑结构。此外,部件感知的交叉注意力机制可以有效地利用点云信息来指导网格生成。

关键设计:PartDiffuser使用了DiT架构作为其核心生成网络。在部件感知的交叉注意力机制中,点云被用作分层几何条件,以动态控制生成过程。损失函数的设计旨在同时优化全局拓扑结构和局部几何细节。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明,PartDiffuser在生成具有丰富细节的3D网格方面显著优于SOTA模型。具体来说,PartDiffuser在多个benchmark数据集上取得了最佳的性能指标,例如在Chamfer Distance和Normal Consistency等指标上均有显著提升。此外,PartDiffuser生成的网格在视觉效果上也更加逼真,细节更加丰富。

🎯 应用场景

PartDiffuser在三维内容创作、游戏开发、虚拟现实、工业设计等领域具有广泛的应用前景。它可以用于生成高质量的三维模型,提高设计效率,降低生产成本。此外,PartDiffuser还可以用于三维重建、场景理解等任务,为相关领域的研究提供新的思路和方法。未来,该技术有望应用于更多实际场景,推动三维视觉技术的发展。

📄 摘要(原文)

Existing autoregressive (AR) methods for generating artist-designed meshes struggle to balance global structural consistency with high-fidelity local details, and are susceptible to error accumulation. To address this, we propose PartDiffuser, a novel semi-autoregressive diffusion framework for point-cloud-to-mesh generation. The method first performs semantic segmentation on the mesh and then operates in a "part-wise" manner: it employs autoregression between parts to ensure global topology, while utilizing a parallel discrete diffusion process within each semantic part to precisely reconstruct high-frequency geometric features. PartDiffuser is based on the DiT architecture and introduces a part-aware cross-attention mechanism, using point clouds as hierarchical geometric conditioning to dynamically control the generation process, thereby effectively decoupling the global and local generation tasks. Experiments demonstrate that this method significantly outperforms state-of-the-art (SOTA) models in generating 3D meshes with rich detail, exhibiting exceptional detail representation suitable for real-world applications.