EvoCAD: Evolutionary CAD Code Generation with Vision Language Models

📄 arXiv: 2510.11631v1 📥 PDF

作者: Tobias Preintner, Weixuan Yuan, Adrian König, Thomas Bäck, Elena Raponi, Niki van Stein

分类: cs.CV, cs.AI, cs.NE

发布日期: 2025-10-13

备注: Accepted to IEEE ICTAI 2025


💡 一句话要点

EvoCAD:利用视觉语言模型与进化算法生成CAD代码

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD生成 视觉语言模型 进化算法 拓扑优化 GPT-4V GPT-4o 符号表示 CADPrompt

📋 核心要点

  1. 现有CAD生成方法在语义理解和拓扑结构保持方面存在不足,难以生成高质量的CAD模型。
  2. EvoCAD利用视觉语言模型的生成能力和进化算法的优化能力,通过符号表示生成CAD对象。
  3. 实验表明,EvoCAD在CADPrompt数据集上优于现有方法,尤其在拓扑结构正确性方面有显著提升。

📝 摘要(中文)

本文提出了一种名为EvoCAD的方法,该方法结合了大型语言模型和进化计算算法,用于生成计算机辅助设计(CAD)对象的符号表示。EvoCAD首先采样多个CAD对象,然后利用视觉语言模型和推理语言模型,通过进化算法进行优化。使用GPT-4V和GPT-4o在CADPrompt基准数据集上评估了该方法,并与现有方法进行了比较。此外,本文还引入了两个基于欧拉特征定义的拓扑属性的新指标,用于捕捉3D对象之间的语义相似性。实验结果表明,EvoCAD在多个指标上优于现有方法,尤其是在生成拓扑结构正确的对象方面表现突出,并且可以通过本文提出的两个新指标进行有效评估,从而补充现有的空间指标。

🔬 方法详解

问题定义:现有CAD生成方法难以保证生成模型的拓扑正确性,并且缺乏有效的拓扑相似性度量标准。这限制了CAD模型在实际应用中的可用性,例如在工程设计和制造领域。

核心思路:EvoCAD的核心思路是结合视觉语言模型的生成能力和进化算法的优化能力,通过符号表示来生成CAD对象。利用视觉语言模型理解用户需求,并利用进化算法搜索最优的CAD代码,从而生成高质量的CAD模型。

技术框架:EvoCAD的整体框架包括以下几个主要阶段:1) 初始化:使用视觉语言模型生成多个初始CAD对象;2) 评估:使用视觉语言模型和推理语言模型评估CAD对象的质量;3) 选择:根据评估结果选择优秀的CAD对象;4) 交叉与变异:对选择的CAD对象进行交叉和变异操作,生成新的CAD对象;5) 迭代:重复评估、选择、交叉与变异操作,直到满足停止条件。

关键创新:EvoCAD的关键创新在于:1) 结合视觉语言模型和进化算法进行CAD代码生成;2) 引入了基于欧拉特征的拓扑相似性度量指标,用于评估CAD模型的拓扑正确性;3) 利用视觉语言模型进行CAD对象的质量评估,从而实现自动化优化。

关键设计:在EvoCAD中,关键的设计包括:1) 使用GPT-4V和GPT-4o作为视觉语言模型;2) 使用遗传算法作为进化算法;3) 定义了交叉和变异操作,用于生成新的CAD对象;4) 设计了基于欧拉特征的拓扑相似性度量指标,包括欧拉数差异和连通分量差异。

🖼️ 关键图片

fig_0

📊 实验亮点

EvoCAD在CADPrompt数据集上取得了显著的性能提升,尤其是在拓扑结构正确性方面。与现有方法相比,EvoCAD在欧拉数差异和连通分量差异指标上均取得了显著的改进,表明其能够生成更符合拓扑结构要求的CAD模型。实验结果表明,EvoCAD能够有效地结合视觉语言模型和进化算法,从而生成高质量的CAD模型。

🎯 应用场景

EvoCAD具有广泛的应用前景,例如在产品设计、建筑设计、工业制造等领域。它可以帮助设计师快速生成CAD模型,提高设计效率,并降低设计成本。此外,EvoCAD还可以用于自动化CAD模型生成,例如在机器人自主设计和3D打印领域。

📄 摘要(原文)

Combining large language models with evolutionary computation algorithms represents a promising research direction leveraging the remarkable generative and in-context learning capabilities of LLMs with the strengths of evolutionary algorithms. In this work, we present EvoCAD, a method for generating computer-aided design (CAD) objects through their symbolic representations using vision language models and evolutionary optimization. Our method samples multiple CAD objects, which are then optimized using an evolutionary approach with vision language and reasoning language models. We assess our method using GPT-4V and GPT-4o, evaluating it on the CADPrompt benchmark dataset and comparing it to prior methods. Additionally, we introduce two new metrics based on topological properties defined by the Euler characteristic, which capture a form of semantic similarity between 3D objects. Our results demonstrate that EvoCAD outperforms previous approaches on multiple metrics, particularly in generating topologically correct objects, which can be efficiently evaluated using our two novel metrics that complement existing spatial metrics.