CADmium: Fine-Tuning Code Language Models for Text-Driven Sequential CAD Design

📄 arXiv: 2507.09792v3 📥 PDF

作者: Prashant Govindarajan, Davide Baldelli, Jay Pathak, Quentin Fournier, Sarath Chandar

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-07-13 (更新: 2026-01-08)

备注: Published in Transactions on Machine Learning Research (TMLR) 01/2026

期刊: Transactions on Machine Learning Research (TMLR) 01/2026; https://openreview.net/forum?id=lExqWvQht8


💡 一句话要点

CADmium:微调代码语言模型,实现文本驱动的序列化CAD设计

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD设计 大型语言模型 文本驱动生成 代码语言模型 几何拓扑指标

📋 核心要点

  1. 现有CAD建模流程耗时且依赖人工,缺乏对大型语言模型(LLM)潜力的有效利用。
  2. CADmium通过GPT-4生成高质量CAD模型描述,并微调代码LLM以实现文本驱动的CAD序列生成。
  3. 实验表明,CADmium能够自动化CAD设计,显著提升设计效率,并引入几何和拓扑指标以评估生成质量。

📝 摘要(中文)

计算机辅助设计(CAD)是2D和3D对象的数字构建,在汽车和航空等广泛的工程和制造应用中至关重要。尽管其重要性,CAD建模仍然是一项耗时的人工任务。最近的研究尝试使用基于小型Transformer的模型和手工设计的CAD序列表示来自动化此过程。然而,很少有研究利用大型语言模型(LLM)在序列化CAD设计中的潜力。本文介绍了一个新的大规模数据集,包含超过17万个CAD模型,并使用基于GPT-4的流程生成高质量、类人的描述。利用此数据集,我们微调了强大的代码LLM,以从自然语言描述生成JSON格式的CAD序列,证明了该方法在文本条件CAD生成中的可行性和有效性。由于简单指标通常无法反映生成对象的质量,我们引入了基于球形度、平均曲率和欧拉特征的几何和拓扑指标,以提供更丰富的结构洞察。在合成和人工标注数据上的实验和消融研究表明,CADmium能够自动化CAD设计,从而大大加快新对象的设计速度。数据集、代码和微调模型已在线提供。

🔬 方法详解

问题定义:论文旨在解决CAD建模过程中耗时且依赖人工的问题。现有方法主要依赖小型Transformer模型和手工设计的CAD序列表示,无法充分利用大型语言模型(LLM)的潜力,导致自动化程度低,设计效率不高。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的文本理解和生成能力,通过文本描述驱动CAD序列的生成。通过构建大规模数据集并微调代码LLM,使模型能够理解自然语言描述并将其转化为CAD设计指令。

技术框架:整体框架包括以下几个主要阶段:1) 使用GPT-4生成高质量的CAD模型文本描述;2) 构建包含CAD模型和对应文本描述的大规模数据集;3) 选择合适的代码LLM进行微调,使其能够根据文本描述生成JSON格式的CAD序列;4) 使用几何和拓扑指标评估生成CAD模型的质量。

关键创新:论文的关键创新在于:1) 构建了一个大规模的CAD模型数据集,并使用GPT-4生成高质量的文本描述,为LLM的训练提供了充足的数据;2) 提出了一种基于代码LLM的文本驱动CAD序列生成方法,实现了CAD设计的自动化;3) 引入了几何和拓扑指标,能够更全面地评估生成CAD模型的质量。

关键设计:论文的关键设计包括:1) 使用JSON格式表示CAD序列,方便LLM的生成和解析;2) 选择合适的代码LLM进行微调,并设计合适的训练目标和损失函数;3) 设计了几何和拓扑指标,包括球形度、平均曲率和欧拉特征,用于评估生成CAD模型的结构质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个包含超过17万个CAD模型的大规模数据集,并成功微调了代码LLM,实现了文本驱动的CAD序列生成。实验结果表明,CADmium能够显著提升CAD设计效率,并生成高质量的CAD模型。此外,论文还引入了几何和拓扑指标,为CAD模型的质量评估提供了更全面的视角。

🎯 应用场景

该研究成果可广泛应用于汽车、航空航天、建筑设计等领域,实现CAD设计的自动化,显著缩短设计周期,降低设计成本。未来,该技术有望与虚拟现实、增强现实等技术结合,实现更加直观和高效的CAD设计体验,并促进个性化定制产品的快速设计与生产。

📄 摘要(原文)

Computer-aided design (CAD) is the digital construction of 2D and 3D objects, and is central to a wide range of engineering and manufacturing applications like automobile and aviation. Despite its importance, CAD modeling remains largely a time-intensive, manual task. Recent works have attempted to automate this process with small transformer-based models and handcrafted CAD sequence representations. However, there has been little effort to leverage the potential of large language models (LLMs) for sequential CAD design. In this work, we introduce a new large-scale dataset of more than 170k CAD models annotated with high-quality, human-like descriptions generated with our pipeline based on GPT-4.1. Using this dataset, we fine-tune powerful code-LLMs to generate CAD sequences represented in a JSON-based format from natural language descriptions, demonstrating the viability and effectiveness of this approach for text-conditioned CAD generation. Because simple metrics often fail to reflect the quality of generated objects, we introduce geometric and topological metrics based on sphericity, mean curvature, and Euler characteristic to provide richer structural insights. Our experiments and ablation studies on both synthetic and human-annotated data demonstrate that CADmium is able to automate CAD design, drastically speeding up the design of new objects. The dataset, code, and fine-tuned models are available online.