SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design

📄 arXiv: 2603.13098v1 📥 PDF

作者: Ruogu Li, Sikai Li, Yao Mu, Mingyu Ding

分类: cs.RO, cs.CV

发布日期: 2026-03-13

备注: Accept by ICRA 2026


💡 一句话要点

SldprtNet:用于语言驱动3D设计中CAD生成的大规模多模态数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD建模 多模态数据集 3D设计 几何深度学习 自然语言描述 参数化建模 跨模态学习

📋 核心要点

  1. 现有CAD建模方法缺乏大规模多模态数据支持,限制了语义驱动的3D设计和跨模态学习。
  2. SldprtNet通过提供包含242,000+工业零件的多模态数据集,支持参数化建模和自然语言描述生成。
  3. 实验表明,基于SldprtNet微调的模型,利用图像+文本输入优于仅文本输入,验证了多模态数据的价值。

📝 摘要(中文)

我们推出了SldprtNet,一个包含超过242,000个工业零件的大规模数据集,专为语义驱动的CAD建模、几何深度学习以及用于3D设计的多模态模型的训练和微调而设计。该数据集提供.step和.sldprt两种格式的3D模型,以支持多样化的训练和测试。为了实现参数化建模并促进数据集的可扩展性,我们开发了配套工具,包括编码器和解码器,它们支持13种类型的CAD命令,并实现3D模型和结构化文本表示之间的无损转换。此外,每个样本都配有一个复合图像,该图像通过合并3D模型的七个不同视点的渲染视图而创建,从而有效地减少了输入token长度并加速了推理。通过将此图像与编码器输出的参数化文本相结合,我们采用轻量级多模态语言模型Qwen2.5-VL-7B来生成每个零件外观和功能的自然语言描述。为了确保准确性,我们手动验证并对齐了生成的描述、渲染图像和3D模型。这些描述以及参数化建模脚本、渲染图像和3D模型文件完全对齐,从而构建了SldprtNet。为了评估其有效性,我们在数据集子集上微调了基线模型,比较了图像加文本输入与仅文本输入。结果证实了多模态数据集对于CAD生成的必要性和价值。它具有精心挑选的真实工业零件、用于可扩展数据集扩展的支持工具、多样化的模态以及确保模型复杂性和几何特征的多样性,使其成为一个为语义驱动的CAD建模和跨模态学习而构建的综合多模态数据集。

🔬 方法详解

问题定义:现有CAD建模方法在很大程度上依赖于人工设计或基于规则的生成,缺乏从大规模数据中学习语义信息的能力。此外,现有数据集通常规模较小,模态单一,难以支持复杂的跨模态学习任务,例如根据自然语言描述生成3D模型。因此,如何构建一个大规模、多模态的CAD数据集,以支持语义驱动的3D设计,是一个重要的挑战。

核心思路:论文的核心思路是构建一个包含3D模型、参数化建模脚本、渲染图像和自然语言描述的多模态数据集SldprtNet。通过提供多种模态的信息,该数据集可以支持各种任务,例如3D模型生成、自然语言描述生成和跨模态检索。此外,论文还开发了配套工具,用于实现3D模型和参数化建模脚本之间的无损转换,从而促进数据集的可扩展性。

技术框架:SldprtNet的构建流程主要包括以下几个阶段:1) 数据收集:收集超过242,000个工业零件的3D模型,格式包括.step和.sldprt。2) 参数化建模:开发编码器和解码器,将3D模型转换为参数化建模脚本,支持13种CAD命令。3) 图像渲染:从七个不同视点渲染3D模型,生成复合图像。4) 自然语言描述生成:使用Qwen2.5-VL-7B模型,结合复合图像和参数化建模脚本,生成自然语言描述。5) 数据对齐:手动验证并对齐3D模型、参数化建模脚本、渲染图像和自然语言描述。

关键创新:SldprtNet的关键创新在于:1) 大规模:包含超过242,000个工业零件,是目前最大的CAD数据集之一。2) 多模态:提供3D模型、参数化建模脚本、渲染图像和自然语言描述四种模态的信息。3) 可扩展:开发了配套工具,支持3D模型和参数化建模脚本之间的无损转换,从而促进数据集的可扩展性。4) 高质量:手动验证并对齐数据,确保数据质量。

关键设计:在参数化建模方面,论文设计了支持13种CAD命令的编码器和解码器,以实现3D模型和参数化建模脚本之间的无损转换。在自然语言描述生成方面,论文使用了轻量级多模态语言模型Qwen2.5-VL-7B,并结合复合图像和参数化建模脚本作为输入。为了确保数据质量,论文采用了人工验证和对齐的方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在SldprtNet数据集的子集上微调基线模型后,使用图像加文本作为输入,相比于仅使用文本作为输入,在CAD生成任务上取得了更好的性能。这验证了多模态数据集对于CAD生成的必要性和价值,表明图像信息能够有效补充文本信息,提高模型的生成能力。

🎯 应用场景

SldprtNet数据集可广泛应用于语义驱动的CAD建模、几何深度学习和跨模态学习等领域。例如,可以利用该数据集训练模型,实现根据自然语言描述生成3D模型,或根据3D模型生成自然语言描述。此外,该数据集还可以用于开发智能设计工具,提高设计效率和质量。未来,该数据集有望推动CAD建模和3D设计领域的智能化发展。

📄 摘要(原文)

We introduce SldprtNet, a large-scale dataset comprising over 242,000 industrial parts, designed for semantic-driven CAD modeling, geometric deep learning, and the training and fine-tuning of multimodal models for 3D design. The dataset provides 3D models in both .step and .sldprt formats to support diverse training and testing. To enable parametric modeling and facilitate dataset scalability, we developed supporting tools, an encoder and a decoder, which support 13 types of CAD commands and enable lossless transformation between 3D models and a structured text representation. Additionally, each sample is paired with a composite image created by merging seven rendered views from different viewpoints of the 3D model, effectively reducing input token length and accelerating inference. By combining this image with the parameterized text output from the encoder, we employ the lightweight multimodal language model Qwen2.5-VL-7B to generate a natural language description of each part's appearance and functionality. To ensure accuracy, we manually verified and aligned the generated descriptions, rendered images, and 3D models. These descriptions, along with the parameterized modeling scripts, rendered images, and 3D model files, are fully aligned to construct SldprtNet. To assess its effectiveness, we fine-tuned baseline models on a dataset subset, comparing image-plus-text inputs with text-only inputs. Results confirm the necessity and value of multimodal datasets for CAD generation. It features carefully selected real-world industrial parts, supporting tools for scalable dataset expansion, diverse modalities, and ensured diversity in model complexity and geometric features, making it a comprehensive multimodal dataset built for semantic-driven CAD modeling and cross-modal learning.