Masked BRep Autoencoder via Hierarchical Graph Transformer

📄 arXiv: 2603.14927v1 📥 PDF

作者: Yifei Li, Kang Wu, Wenming Wu, Xiaoming Fu

分类: cs.GR, cs.LG

发布日期: 2026-03-16

备注: 27 pages, 11 figures. Under review


💡 一句话要点

提出基于分层图Transformer的掩码BRep自编码器,用于CAD模型表征学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: CAD模型 自监督学习 图神经网络 Transformer 表征学习

📋 核心要点

  1. 现有方法难以有效利用CAD模型中的几何和拓扑信息进行表征学习,泛化能力受限。
  2. 提出掩码BRep自编码器,通过重建掩码的几何和属性来学习鲁棒的CAD模型表征。
  3. 分层图Transformer融合全局长程依赖和局部拓扑信息,提升下游任务性能,尤其在数据有限时。

📝 摘要(中文)

本文提出了一种新颖的自监督学习框架,用于自动学习计算机辅助设计(CAD)模型的表征,以用于下游任务,包括零件分类、建模分割和加工特征识别。为了训练网络,我们构建了一个大规模的、未标记的边界表示(BRep)模型数据集。算法成功的关键在于两个组成部分。首先是一个掩码图自编码器,它重建随机掩码的几何体和BRep的属性,用于表征学习,以增强泛化能力。其次是一个分层图Transformer架构,它通过跨尺度互注意力块优雅地融合全局和局部学习,以建模长程几何依赖关系,并通过图神经网络块来聚合局部拓扑信息。在训练自编码器后,我们用一个针对特定任务的网络替换其解码器,该网络在少量标记数据上进行训练,用于下游任务。我们在各种任务上进行了实验,并取得了很高的性能,即使使用少量的标记数据,也证明了我们模型的实用性和通用性。与其他方法相比,我们的模型在相同数量的训练数据下,在下游任务上表现明显更好,尤其是在训练数据非常有限的情况下。

🔬 方法详解

问题定义:现有的CAD模型表征学习方法通常依赖于人工标注的数据,成本高昂且难以扩展。此外,如何有效地利用CAD模型固有的几何和拓扑信息,并学习到具有良好泛化能力的表征,仍然是一个挑战。特别是当训练数据有限时,模型的性能往往会显著下降。

核心思路:本文的核心思路是利用自监督学习的方式,通过掩码图自编码器来学习CAD模型的表征。通过随机掩码BRep的几何和属性,并让模型重建这些被掩码的部分,从而迫使模型学习到CAD模型内在的结构和依赖关系。这种方式可以有效地利用大量的未标注数据,并提高模型的泛化能力。

技术框架:整体框架包含两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用掩码图自编码器在大规模未标注的BRep数据集上进行训练。自编码器由一个编码器和一个解码器组成。编码器采用分层图Transformer架构,用于提取CAD模型的表征。解码器用于重建被掩码的几何和属性。在微调阶段,将预训练好的编码器作为特征提取器,并替换解码器为一个针对特定下游任务的网络,然后在少量标注数据上进行微调。

关键创新:本文的关键创新在于提出了分层图Transformer架构,该架构能够有效地融合全局和局部信息。通过跨尺度互注意力块,模型可以学习到长程的几何依赖关系。同时,通过图神经网络块,模型可以聚合局部的拓扑信息。这种分层结构使得模型能够更好地理解CAD模型的结构,并学习到更具表达能力的表征。此外,掩码自编码器的设计也使得模型能够更好地泛化到未见过的CAD模型。

关键设计:掩码策略:随机掩码BRep的几何体(如顶点坐标)和属性(如面类型)。损失函数:采用重建损失,衡量重建的几何体和属性与原始值的差异。分层图Transformer:包含多个Transformer层和GNN层,交替进行全局和局部信息的融合。跨尺度互注意力块:用于在不同尺度的特征图之间进行信息交互。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在零件分类、建模分割和加工特征识别等任务上取得了显著的性能提升。在数据量有限的情况下,该模型相比其他方法表现出更强的鲁棒性和泛化能力。例如,在零件分类任务中,使用少量标注数据训练的模型,其准确率优于使用大量标注数据训练的传统方法。

🎯 应用场景

该研究成果可广泛应用于CAD/CAM/CAE领域,例如零件分类、建模分割、加工特征识别等。通过学习高质量的CAD模型表征,可以提高自动化设计、智能制造和产品性能分析的效率和准确性。尤其在小样本学习场景下,该方法具有显著优势,能够降低对标注数据的依赖,加速新产品的开发和迭代。

📄 摘要(原文)

We introduce a novel self-supervised learning framework that automatically learns representations from input computer-aided design (CAD) models for downstream tasks, including part classification, modeling segmentation, and machining feature recognition. To train our network, we construct a large-scale, unlabeled dataset of boundary representation (BRep) models. The success of our algorithm relies on two keycomponents. The first is a masked graph autoencoder that reconstructs randomly masked geometries and attributes of BReps for representation learning to enhance the generalization. The second is a hierarchical graph Transformer architecture that elegantly fuses global and local learning by a cross-scale mutual attention block to model long-range geometric dependencies and a graph neural network block to aggregate local topological information. After training the autoencoder, we replace its decoder with a task-specific network trained on a small amount of labeled data for downstream tasks. We conduct experiments on various tasks and achieve high performance, even with a small amount of labeled data, demonstrating the practicality and generalizability of our model. Compared to other methods, our model performs significantly better on downstream tasks with the same amount of training data, particularly when the training data is very limited.