BenchCAD: A Comprehensive, Industry-Standard Benchmark for Programmatic CAD
作者: Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen
分类: cs.AI, cs.CV, cs.SE
发布日期: 2026-05-11
备注: 9 page 7 figures
💡 一句话要点
提出BenchCAD基准测试,旨在评估并提升多模态大模型在工业级参数化CAD代码生成中的能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机辅助设计 代码生成 多模态大模型 工业自动化 参数化建模 程序合成 基准测试
📋 核心要点
- 现有模型在处理工业CAD时,往往仅能捕捉粗略几何外形,难以生成符合工程逻辑、可执行且参数化的CAD代码。
- 本文构建了包含17,900个CadQuery程序的BenchCAD基准,通过多维度任务评估模型在感知、参数抽象及程序合成上的表现。
- 实验揭示了当前模型在复杂工业零件设计上的局限性,指出微调与强化学习虽能提升性能,但泛化能力仍有待突破。
📝 摘要(中文)
工业级计算机辅助设计(CAD)代码生成要求模型能够根据视觉或文本输入生成可执行的参数化程序。该任务不仅涉及识别零件外形,还需理解三维结构、推断工程参数,并选择符合制造逻辑的CAD操作。尽管多模态大模型(MLLM)在该领域展现出潜力,但缺乏针对真实工业场景的综合评估。本文提出了BenchCAD,这是一个统一的工业CAD推理基准,包含17,900个经过执行验证的CadQuery程序,涵盖106个工业零件族(如斜齿轮、压缩弹簧等)。BenchCAD通过视觉问答、代码问答、图生代码及指令引导的代码编辑等多维度任务,对模型的感知、参数抽象及程序合成能力进行细粒度分析。实验表明,当前模型虽能恢复粗略几何形状,但在生成忠实的参数化程序方面表现欠佳,常出现结构缺失或操作逻辑简化等问题,凸显了提升模型工业适用性的紧迫性。
🔬 方法详解
问题定义:论文旨在解决工业CAD自动化中的“参数化程序生成”难题。现有方法多关注几何形状的表面重建,忽略了工业设计中至关重要的参数化逻辑、制造约束及复杂操作(如放样、扫掠等),导致生成的代码缺乏可编辑性和工程实用性。
核心思路:通过构建大规模、高质量、可执行的工业CAD数据集,建立一套标准化的评估体系。核心逻辑在于将CAD生成任务从单纯的几何建模提升为“工程意图理解与程序逻辑合成”的结合,强制模型学习符合工业标准的参数化建模范式。
技术框架:BenchCAD框架包含106个零件族,共17,900个CadQuery程序。评估流程涵盖四个维度:视觉问答(VQA)、代码问答(CQA)、图像到代码生成(Image-to-Code)以及指令引导的代码编辑。通过执行验证(Execution-verified)机制,确保生成的代码在CadQuery环境中可成功编译并生成预期几何体。
关键创新:引入了工业级参数化抽象评估,不仅考察几何相似度,更强调程序结构的逻辑正确性。该基准首次将复杂的工业零件(如齿轮、弹簧)纳入评估范围,并引入了指令引导的编辑任务,模拟真实工程迭代过程。
关键设计:采用了CadQuery作为底层编程语言,利用其强大的参数化建模能力。评估指标包括代码执行成功率、几何重合度(Chamfer Distance等)以及参数准确性,通过细粒度分析揭示模型在处理复杂特征(如旋转、拉伸、放样)时的具体失效模式。
🖼️ 关键图片
📊 实验亮点
BenchCAD在10余个前沿模型上进行了广泛测试,结果显示当前系统在处理复杂工业零件时表现出显著的“参数化鸿沟”。实验发现,模型倾向于使用简单的拉伸操作替代复杂的工业特征,且在未见过的零件族上泛化能力较弱。该基准为量化评估模型工业适用性提供了首个大规模、可执行的基准参考。
🎯 应用场景
该研究直接服务于智能制造与工业自动化领域。其成果可应用于自动生成工程图纸、辅助工程师进行参数化建模、加速CAD软件的智能化升级,以及作为工业设计领域多模态大模型的训练与评估标准,推动从“几何建模”向“智能工程设计”的范式转变。
📄 摘要(原文)
Industrial Computer-Aided Design (CAD) code generation requires models to produce executable parametric programs from visual or textual inputs. Beyond recognizing the outer shape of a part, this task involves understanding its 3D structure, inferring engineering parameters, and choosing CAD operations that reflect how the part would be designed and manufactured. Despite the promise of Multimodal large language models (MLLMs) for this task, they are rarely evaluated on whether these capabilities jointly hold in realistic industrial CAD settings. We present BenchCAD, a unified benchmark for industrial CAD reasoning. BenchCAD contains 17,900 execution-verified CadQuery programs across 106 industrial part families, including bevel gears, compression springs, twist drills, and other reusable engineering designs. It evaluates models through visual question answering, code question answering, image-to-code generation, and instruction-guided code editing, enabling fine-grained analysis across perception, parametric abstraction, and executable program synthesis. Across 10+ frontier models, BenchCAD shows that current systems often recover coarse outer geometry but fail to produce faithful parametric CAD programs. Common failures include missing fine 3D structure, misinterpreting industrial design parameters, and replacing essential operations such as sweeps, lofts, and twist-extrudes with simpler sketch-and-extrude patterns. Fine-tuning and reinforcement learning improve in-distribution performance, but generalization to unseen part families remains limited. These results position BenchCAD as a benchmark for measuring and improving the industrial readiness of multimodal CAD automation.