A2Z-10M+: Geometric Deep Learning with A-to-Z BRep Annotations for AI-Assisted CAD Modeling and Reverse Engineering
作者: Pritham Kumar Jena, Bhavika Baburaj, Tushar Anand, Vedant Dutta, Vineeth Ulavala, Sk Aziz Ali
分类: cs.CV
发布日期: 2026-03-13
备注: 27 pages, accepted to IEEE CVF CVPR 2026
💡 一句话要点
A2Z-10M+:利用A-to-Z BRep标注的几何深度学习,辅助AI驱动的CAD建模与逆向工程。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CAD建模 逆向工程 几何深度学习 多模态数据集 边界表示 BRep A2Z-10M+
📋 核心要点
- 现有几何深度学习方法缺乏对CAD模型边界表示(BRep)中参数化特征的多模态理解,限制了其在逆向工程中的应用。
- 论文提出A2Z-10M+数据集,包含CAD模型的多模态标注,包括网格、草图、BRep信息和文本描述,旨在促进BRep学习。
- 通过在A2Z数据集上训练基础模型,实现了从3D扫描中检测BRep共边和角点顶点的任务,为CAD逆向工程提供支持。
📝 摘要(中文)
本研究旨在通过几何深度学习技术,提升计算机辅助设计(CAD)模型的逆向工程和快速原型设计能力。为此,我们构建了包含100万个ABC CAD模型的多模态标注数据集A2Z-10M+,该数据集包含超过1000万个标注和元数据,以促进对参数化CAD特征(存储在其边界表示BRep中)的深度理解。A2Z包括:(i)具有显著3D扫描特征的高分辨率网格;(ii)配备(iii)关于BRep共边、角点和表面的几何和拓扑信息的3D手绘草图;(iv)描述机械世界中产品的文本说明和标签。创建如此精心构建的大规模数据极具挑战性,需要近5TB的存储空间。我们使用新颖的指标、GPT-5、Gemini和广泛的人工反馈机制来评估多模态标注的规模、质量和多样性。此外,我们将由专业人员设计的25,000个电子外壳(例如,平板电脑、端口)CAD模型与A2Z数据集合并。随后,我们在15万个CAD模型的子集上训练并基准测试了一个基础模型,以检测3D扫描中的BRep共边和角点顶点,这是CAD逆向工程中的关键下游任务。标注数据集、指标和检查点将公开发布,以支持众多研究方向。
🔬 方法详解
问题定义:论文旨在解决CAD模型逆向工程中,几何深度学习方法缺乏对CAD模型BRep信息的有效利用的问题。现有方法难以从3D扫描数据中准确提取CAD模型的参数化特征,限制了其在工业产品设计中的应用。
核心思路:论文的核心思路是构建一个大规模、多模态的CAD模型数据集A2Z-10M+,该数据集包含CAD模型的几何信息、拓扑信息和语义信息,从而使深度学习模型能够学习到CAD模型的BRep表示,并能够从3D扫描数据中准确提取CAD模型的参数化特征。
技术框架:整体框架包含数据收集与标注、模型训练与评估两个主要阶段。数据收集阶段构建了A2Z-10M+数据集,包含高分辨率网格、3D手绘草图、BRep信息和文本描述。模型训练阶段,在数据集的子集上训练基础模型,用于检测3D扫描中的BRep共边和角点顶点。模型评估阶段,使用新颖的指标、GPT-5、Gemini和人工反馈机制评估数据集的质量和多样性,并对训练后的模型进行基准测试。
关键创新:论文的关键创新在于构建了大规模、多模态的CAD模型数据集A2Z-10M+,该数据集包含CAD模型的几何信息、拓扑信息和语义信息,为几何深度学习在CAD领域的应用提供了数据基础。此外,论文还提出了用于评估数据集质量和多样性的新颖指标。
关键设计:论文的关键设计包括:(1) A2Z-10M+数据集的构建,包括数据的收集、标注和组织;(2) 基础模型的选择和训练,用于检测3D扫描中的BRep共边和角点顶点;(3) 评估指标的设计,用于评估数据集的质量和多样性。具体参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了包含100万个CAD模型和超过1000万个标注的大规模多模态数据集A2Z-10M+,并基于该数据集训练了一个基础模型,用于检测3D扫描中的BRep共边和角点顶点。虽然论文中没有给出具体的性能数据和对比基线,但该数据集的规模和质量为后续研究提供了坚实的基础。
🎯 应用场景
该研究成果可应用于工业产品设计、逆向工程、快速原型设计等领域。通过AI辅助的CAD建模,可以显著提高设计效率,降低设计成本。未来,该研究有望推动CAD软件的智能化发展,实现基于草图或文本描述的自动CAD模型生成。
📄 摘要(原文)
Reverse engineering and rapid prototyping of computer-aided design (CAD) models from 3D scans, sketches, or simple text prompts are vital in industrial product design. However, recent advances in geometric deep learning techniques lack a multi-modal understanding of parametric CAD features stored in their boundary representation (BRep). This study presents the largest compilation of 10 million multi-modal annotations and metadata for 1 million ABC CAD models, namely A2Z, to unlock an unprecedented level of BRep learning. A2Z comprises (i) high-resolution meshes with salient 3D scanning features, (ii) 3D hand-drawn sketches equipped with (iii) geometric and topological information about BRep co-edges, corners, and surfaces, and (iv) textual captions and tags describing the product in the mechanical world. Creating such carefully structured, large-scale data, which requires nearly 5 terabytes of storage to leverage unparalleled CAD learning/retrieval tasks, is very challenging. The scale, quality, and diversity of our multi-modal annotations are assessed using novel metrics, GPT-5, Gemini, and extensive human feedback mechanisms. To this end, we also merge an additional 25,000 CAD models of electronic enclosures (e.g., tablets, ports) designed by skilled professionals with our A2Z dataset. Subsequently, we train and benchmark a foundation model on a subset of 150K CAD models to detect BRep co-edges and corner vertices from 3D scans, a key downstream task in CAD reverse engineering. The annotated dataset, metrics, and checkpoints will be publicly released to support numerous research directions.