Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data
作者: Mohammadmehdi Ataei, Farzaneh Askari, Kamal Rahimi Malekshan, Pradeep Kumar Jayaraman
分类: cs.CV
发布日期: 2026-04-27
💡 一句话要点
Zero-to-CAD:无需真实数据,百万规模合成可解释的CAD程序
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CAD程序生成 Agentic搜索 大型语言模型 合成数据 视觉-语言模型 CAD重建 参数化建模 计算机辅助设计
📋 核心要点
- 现有3D数据集缺乏CAD模型的构造历史信息,限制了设计意图的理解和编辑。
- Zero-to-CAD利用Agentic搜索,通过LLM在CAD环境中迭代生成、执行和验证代码,合成高质量CAD程序。
- 实验表明,使用Zero-to-CAD合成数据微调的视觉-语言模型,在CAD程序重建任务上优于现有方法。
📝 摘要(中文)
本文提出Zero-to-CAD,一个可扩展的框架,用于合成可执行的CAD构造序列。该框架将合成过程建模为agentic搜索问题:通过将大型语言模型(LLM)嵌入到反馈驱动的CAD环境中,系统迭代地生成、执行和验证代码,利用工具和文档查找来促进几何有效性和操作多样性。这种agentic方法能够合成约一百万个可执行、可读、可编辑的CAD序列,涵盖了超越草图和拉伸工作流程的丰富操作词汇。作者还发布了一个包含10万个高质量模型的精选子集,这些模型经过几何多样性筛选。为了展示数据集的效用,作者在一个视觉-语言模型上,使用合成数据进行微调,以从多视图图像重建可编辑的CAD程序,优于包括GPT-5.2在内的强大基线,并有效地引导了序列生成能力,而无需真实的构造历史训练数据。Zero-to-CAD弥合了几何规模和参数可解释性之间的差距,为下一代CAD AI提供了重要的资源。
🔬 方法详解
问题定义:现有的大规模3D数据集主要由边界表示(B-Reps)或网格组成,缺乏CAD模型重要的构造历史信息,即参数化的设计流程。这使得AI模型难以理解和编辑CAD模型的设计意图,限制了CAD AI的发展。现有方法依赖于真实的CAD构造历史数据,但此类数据稀缺且难以获取。
核心思路:论文的核心思路是将CAD程序的生成过程建模为一个Agentic搜索问题。通过让一个智能体(由LLM驱动)在CAD环境中探索,利用环境反馈(例如几何有效性、操作多样性)来指导CAD程序的生成。这种方法无需依赖真实的CAD构造历史数据,即可生成大量高质量的CAD程序。
技术框架:Zero-to-CAD框架包含以下主要模块:1) LLM驱动的Agent:负责生成CAD代码序列;2) CAD环境:提供CAD操作的执行和几何有效性验证;3) 反馈机制:根据CAD程序的执行结果,提供奖励或惩罚信号,指导Agent的探索;4) 工具和文档查找:Agent可以访问CAD工具和文档,以学习和使用新的CAD操作。整个流程是迭代的:Agent生成CAD代码,CAD环境执行代码并提供反馈,Agent根据反馈调整代码,直到生成满足要求的CAD程序。
关键创新:最重要的技术创新点是使用Agentic搜索来合成CAD程序。与传统的基于规则或模板的CAD程序生成方法不同,Agentic搜索能够探索更广阔的CAD程序空间,生成更复杂、更多样化的CAD程序。此外,该方法无需依赖真实的CAD构造历史数据,降低了数据获取的成本。
关键设计:论文中一些关键的设计包括:1) 使用LLM作为Agent,利用其强大的代码生成能力;2) 设计合适的奖励函数,鼓励Agent生成几何有效且操作多样的CAD程序;3) 实现高效的CAD环境,能够快速执行CAD代码并提供反馈;4) 构建工具和文档查找机制,使Agent能够学习和使用新的CAD操作。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用Zero-to-CAD合成的数据集微调的视觉-语言模型,在从多视图图像重建可编辑CAD程序的任务上,显著优于包括GPT-5.2在内的强大基线。这表明Zero-to-CAD能够有效地引导序列生成能力,而无需真实的构造历史训练数据。此外,该数据集包含一百万个可执行的CAD程序,规模远大于现有的CAD数据集。
🎯 应用场景
Zero-to-CAD合成的CAD数据集可以用于训练各种CAD AI模型,例如CAD程序重建、CAD模型生成、CAD模型编辑等。该研究成果有助于推动CAD AI的发展,提高CAD设计的自动化程度,降低CAD设计的门槛,并促进制造业的数字化转型。未来,该方法可以扩展到其他设计领域,例如电路设计、建筑设计等。
📄 摘要(原文)
Computer-Aided Design (CAD) models are defined by their construction history: a parametric recipe that encodes design intent. However, existing large-scale 3D datasets predominantly consist of boundary representations (B-Reps) or meshes, stripping away this critical procedural information. To address this scarcity, we introduce Zero-to-CAD, a scalable framework for synthesizing executable CAD construction sequences. We frame synthesis as an agentic search problem: by embedding a large language model (LLM) within a feedback-driven CAD environment, our system iteratively generates, executes, and validates code using tools and documentation lookup to promote geometric validity and operation diversity. This agentic approach enables the synthesis of approximately one million executable, readable, editable CAD sequences, covering a rich vocabulary of operations beyond sketch-and-extrude workflows. We also release a curated subset of 100,000 high-quality models selected for geometric diversity. To demonstrate the dataset's utility, we fine-tune a vision-language model on our synthetic data to reconstruct editable CAD programs from multi-view images, outperforming strong baselines, including GPT-5.2, and effectively bootstrapping sequence generation capabilities without real construction-history training data. Zero-to-CAD bridges the gap between geometric scale and parametric interpretability, offering a vital resource for the next generation of CAD AI.