Query2CAD: Generating CAD models using natural language queries

📄 arXiv: 2406.00144v1 📥 PDF

作者: Akshay Badagabettu, Sai Sravan Yarlagadda, Amir Barati Farimani

分类: cs.LG, cs.AI, cs.CE

发布日期: 2024-05-31

备注: 8 pages, 5 figures


💡 一句话要点

Query2CAD:利用自然语言查询生成CAD模型,无需监督数据和额外训练。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD模型生成 自然语言查询 大型语言模型 自完善循环 无监督学习 BLIP2 人机协作

📋 核心要点

  1. 传统CAD设计依赖工程师的迭代和优化,耗时且依赖专家经验,存在效率瓶颈。
  2. Query2CAD利用大型语言模型直接生成CAD宏指令,并通过自完善循环优化设计,无需额外训练数据。
  3. 实验表明,使用GPT-4 Turbo时,Query2CAD首次尝试成功率达53.6%,经过迭代优化后提升至76.7%。

📝 摘要(中文)

本文提出了一种名为Query2CAD的新框架,用于生成CAD设计。该框架利用大型语言模型生成可执行的CAD宏。此外,Query2CAD通过自完善循环来改进CAD模型的生成。Query2CAD无需监督数据或额外训练即可运行,将LLM用作生成器和改进器。改进器利用BLIP2模型生成的反馈,并为了解决假阴性问题,将人工反馈纳入系统。此外,开发了一个包含CAD模型设计中使用的大多数操作的数据集,并使用该数据集评估了框架。结果表明,当使用GPT-4 Turbo作为语言模型时,该架构在第一次尝试时的成功率为53.6%。经过后续改进,成功率提高了23.1%。特别是,在第一次迭代改进时,成功率的提高最为显著。经过后续改进,正确设计的准确性没有显著提高。已开源数据、模型和代码。

🔬 方法详解

问题定义:论文旨在解决CAD模型设计过程中,依赖人工迭代、耗时且需要专业知识的问题。现有方法的痛点在于效率低、成本高,且难以快速实现设计目标。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,将自然语言查询转化为可执行的CAD宏指令,从而实现CAD模型的自动生成。通过自完善循环,不断优化生成的CAD模型,提高设计质量和成功率。

技术框架:Query2CAD框架主要包含以下几个模块:1) LLM生成器:接收自然语言查询,生成初始的CAD宏指令;2) CAD执行器:执行生成的宏指令,创建CAD模型;3) BLIP2反馈器:利用BLIP2模型分析生成的CAD模型,提供反馈信息;4) 人工反馈器:在BLIP2反馈不足时,引入人工反馈;5) LLM改进器:根据BLIP2和人工反馈,优化CAD宏指令,进行迭代改进。整个流程形成一个闭环,不断提升CAD模型的设计质量。

关键创新:该论文的关键创新在于:1) 无监督学习:无需任何监督数据或额外训练,直接利用预训练的LLM进行CAD模型生成;2) 自完善循环:通过BLIP2和人工反馈,实现CAD模型的迭代优化,显著提高设计成功率;3) 自然语言驱动:用户只需提供自然语言描述,即可生成CAD模型,降低了使用门槛。

关键设计:论文的关键设计包括:1) LLM的选择:实验中使用了GPT-4 Turbo作为LLM,以获得更好的生成效果;2) 反馈机制:BLIP2模型用于提供视觉反馈,人工反馈用于解决BLIP2的局限性;3) 迭代次数:实验结果表明,第一次迭代改进效果最显著,后续迭代效果递减。没有明确提及损失函数或网络结构等细节,因为该方法主要依赖于预训练的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用GPT-4 Turbo作为语言模型时,Query2CAD在首次尝试时的成功率为53.6%。经过一次迭代改进后,成功率显著提高至76.7%,提升幅度达23.1%。后续迭代改进带来的提升效果逐渐减弱,表明首次迭代优化最为关键。该结果验证了Query2CAD框架的有效性和自完善循环的优势。

🎯 应用场景

Query2CAD具有广泛的应用前景,可应用于产品设计、建筑设计、机械工程等领域。它可以显著提高CAD设计的效率,降低设计成本,并使非专业人士也能参与到设计过程中。未来,Query2CAD有望成为CAD设计的重要辅助工具,推动设计行业的智能化发展。

📄 摘要(原文)

Computer Aided Design (CAD) engineers typically do not achieve their best prototypes in a single attempt. Instead, they iterate and refine their designs to achieve an optimal solution through multiple revisions. This traditional approach, though effective, is time-consuming and relies heavily on the expertise of skilled engineers. To address these challenges, we introduce Query2CAD, a novel framework to generate CAD designs. The framework uses a large language model to generate executable CAD macros. Additionally, Query2CAD refines the generation of the CAD model with the help of its self-refinement loops. Query2CAD operates without supervised data or additional training, using the LLM as both a generator and a refiner. The refiner leverages feedback generated by the BLIP2 model, and to address false negatives, we have incorporated human-in-the-loop feedback into our system. Additionally, we have developed a dataset that encompasses most operations used in CAD model designing and have evaluated our framework using this dataset. Our findings reveal that when we used GPT-4 Turbo as our language model, the architecture achieved a success rate of 53.6\% on the first attempt. With subsequent refinements, the success rate increased by 23.1\%. In particular, the most significant improvement in the success rate was observed with the first iteration of the refinement. With subsequent refinements, the accuracy of the correct designs did not improve significantly. We have open-sourced our data, model, and code (github.com/akshay140601/Query2CAD).