CADEvolve: Creating Realistic CAD via Program Evolution
作者: Maksim Elistratov, Marina Barannikov, Gregory Ivanov, Valentin Khrulkov, Anton Konushin, Andrey Kuznetsov, Dmitrii Zhemchuzhnikov
分类: cs.GR
发布日期: 2026-02-18
💡 一句话要点
CADEvolve:通过程序进化创建逼真CAD模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CAD模型生成 程序进化 视觉语言模型 Image2CAD 数据集构建
📋 核心要点
- 现有CAD数据集缺乏复杂操作和设计意图,限制了AI模型在CAD任务中的应用。
- CADEvolve通过VLM引导的程序进化,从简单基元逐步构建复杂的CAD程序。
- 实验表明,在CADEvolve数据集上微调的VLM在Image2CAD任务上取得了SOTA结果。
📝 摘要(中文)
计算机辅助设计(CAD)为工程和制造提供快速、可编辑的建模。人工智能的最新进展使得各种CAD任务的完全自动化成为可能。然而,数据是瓶颈:公共语料库主要包含草图-拉伸序列,缺乏复杂操作、多操作组合和设计意图,从而阻碍了有效的微调。尝试使用冻结的VLM绕过这个问题通常会产生简单或无效的程序,因为当前的基础模型中3D基础有限。我们提出了CADEvolve,这是一个基于进化的流水线和数据集,它从简单的基元开始,并通过VLM引导的编辑和验证,逐步将CAD程序发展到工业级复杂性。最终生成了8k个复杂部件,表示为可执行的CadQuery参数化生成器。经过多阶段后处理和增强,我们获得了一个统一的数据集,包含130万个脚本,这些脚本与渲染的几何体配对,并执行完整的CadQuery操作集。在CADEvolve上微调的VLM在DeepCAD、Fusion 360和MCB基准测试的Image2CAD任务上取得了最先进的结果。
🔬 方法详解
问题定义:现有CAD数据集主要包含简单的拉伸操作,缺乏复杂的设计意图和多操作组合,这使得训练能够生成复杂CAD模型的AI模型变得困难。冻结的视觉语言模型(VLM)虽然可以尝试生成CAD程序,但由于3D理解能力不足,经常生成无效或过于简单的程序。
核心思路:CADEvolve的核心思路是通过程序进化,逐步构建复杂的CAD程序。从简单的几何基元开始,利用VLM生成新的操作,并进行验证,确保生成的程序有效且逐步增加复杂度。这种迭代式的进化过程能够有效地探索CAD程序空间,并生成具有工业级复杂度的CAD模型。
技术框架:CADEvolve包含以下主要阶段:1) 初始化:从简单的几何基元开始。2) VLM引导的编辑:使用VLM生成新的CAD操作,例如布尔运算、倒角等。3) 验证:验证生成的CAD程序是否有效,例如是否产生有效的几何体。4) 迭代:重复步骤2和3,直到达到预定的复杂度或迭代次数。5) 后处理和增强:对生成的CAD程序进行后处理,例如优化代码结构,并进行数据增强,例如旋转、缩放等。
关键创新:CADEvolve的关键创新在于使用VLM引导的程序进化来生成复杂的CAD程序。与直接生成复杂CAD程序相比,这种方法能够更好地探索CAD程序空间,并生成具有更高质量和复杂度的CAD模型。此外,CADEvolve还提出了一个多阶段的后处理和增强流程,进一步提高了数据集的质量。
关键设计:VLM的选择至关重要,需要选择具有较强代码生成和3D理解能力的VLM。验证模块需要能够有效地检测无效的CAD程序,例如使用几何引擎进行碰撞检测。进化过程中的复杂度控制可以通过设定迭代次数或复杂度阈值来实现。后处理阶段可以采用代码优化技术,例如删除冗余操作。
🖼️ 关键图片
📊 实验亮点
在CADEvolve数据集上微调的VLM在Image2CAD任务上取得了最先进的结果,超过了DeepCAD、Fusion 360和MCB等基准测试上的现有方法。这表明CADEvolve数据集的质量和多样性能够有效地提升AI模型在CAD任务上的性能。
🎯 应用场景
CADEvolve的研究成果可以应用于CAD模型的自动生成、设计优化和逆向工程等领域。它可以帮助工程师快速生成复杂的CAD模型,提高设计效率。此外,CADEvolve生成的数据集可以用于训练更强大的AI模型,从而实现CAD任务的自动化。
📄 摘要(原文)
Computer-Aided Design (CAD) delivers rapid, editable modeling for engineering and manufacturing. Recent AI progress now makes full automation feasible for various CAD tasks. However, progress is bottlenecked by data: public corpora mostly contain sketch-extrude sequences, lack complex operations, multi-operation composition and design intent, and thus hinder effective fine-tuning. Attempts to bypass this with frozen VLMs often yield simple or invalid programs due to limited 3D grounding in current foundation models. We present CADEvolve, an evolution-based pipeline and dataset that starts from simple primitives and, via VLM-guided edits and validations, incrementally grows CAD programs toward industrial-grade complexity. The result is 8k complex parts expressed as executable CadQuery parametric generators. After multi-stage post-processing and augmentation, we obtain a unified dataset of 1.3m scripts paired with rendered geometry and exercising the full CadQuery operation set. A VLM fine-tuned on CADEvolve achieves state-of-the-art results on the Image2CAD task across the DeepCAD, Fusion 360, and MCB benchmarks.