CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation
作者: Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed
分类: cs.CV, cs.AI
发布日期: 2026-05-11
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出CADBench多模态基准,系统性评估AI辅助CAD程序生成的性能与鲁棒性
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CAD程序生成 多模态基准 3D重建 计算机辅助设计 视觉语言模型 几何建模
📋 核心要点
- 现有CAD程序生成研究缺乏统一的评估标准,导致不同数据集、模态和指标下的模型性能难以横向对比。
- CADBench通过整合多源数据集与五种输入模态,构建了包含18,000个样本的标准化评估框架,支持多维度性能分析。
- 实验表明,专用模型在理想输入下优于通用VLM,但整体在复杂几何重建和模态鲁棒性上仍面临显著挑战。
📝 摘要(中文)
从图像或3D观测中恢复可编辑的CAD程序是AI辅助设计的核心,但由于现有评估方法在数据集、模态和指标上高度碎片化,进展难以衡量。为此,本文提出了CADBench,这是一个统一的多模态CAD程序生成基准。CADBench包含18,000个评估样本,涵盖了来自DeepCAD、Fusion 360、ABC、MCB和Objaverse的六个基准家族;支持五种输入模态(包括干净网格、噪声网格、单/多视图渲染等);并采用六项指标评估几何保真度、可执行性和程序紧凑性。通过对11个CAD专用模型和通用视觉语言模型(VLM)进行大规模基准测试,研究揭示了模型在几何复杂度增加时的性能退化、模态迁移下的脆弱性以及指标间排名的不一致性,为可编辑3D重建提供了诊断性测试平台。
🔬 方法详解
问题定义:论文旨在解决AI辅助CAD建模领域中评估标准碎片化的问题。现有研究往往局限于特定数据集或单一模态,导致无法客观衡量模型在处理复杂几何结构、不同输入质量及跨模态场景下的泛化能力与重建质量。
核心思路:构建一个统一的诊断性基准测试平台。通过对齐多种输入模态(从几何网格到渲染图像)并引入多维度的评估指标(几何、程序、紧凑性),实现对CAD生成模型性能的全面量化,从而揭示模型在不同复杂度下的失效模式。
技术框架:CADBench框架由数据层、模态层和指标层组成。数据层整合了DeepCAD等主流数据集并进行多样性采样;模态层支持从纯几何到视觉渲染的五种输入形式;指标层则通过几何保真度(如Chamfer距离)、程序可执行性(编译成功率)和程序紧凑性(代码长度)进行综合评分。
关键创新:首次实现了跨数据集、跨模态的统一评估体系。通过对STEP文件进行基于B-rep面数的复杂度分层,以及对所有家族进行多样性采样,确保了基准测试在不同几何复杂度和对象类别下的公平性与可控性。
关键设计:采用了多维指标体系,不仅关注最终生成的几何形状,还强调CAD程序的逻辑正确性(可执行性)和工程实用性(紧凑性)。此外,通过大规模基准测试(140万+程序生成),明确了模型在几何复杂度增加时的性能退化规律,并量化了模态迁移带来的鲁棒性损失。
🖼️ 关键图片
📊 实验亮点
CADBench通过对11个主流模型进行超140万次生成测试,揭示了关键性能瓶颈:在理想输入下,专用模型显著优于通用VLM;但在复杂几何场景下,重建质量普遍下降。此外,研究发现模型在模态迁移(如从网格到渲染图)时表现脆弱,且不同指标下的模型排名存在显著差异,证明了多维度评估的必要性。
🎯 应用场景
该研究为工业设计自动化、计算机辅助设计(CAD)软件的智能化升级提供了关键评估工具。其研究成果可直接用于指导生成式CAD模型的设计与优化,推动从静态3D重建向可编辑、参数化建模的范式转变,在制造业数字化转型和智能制造领域具有深远影响。
📄 摘要(原文)
Recovering editable CAD programs from images or 3D observations is central to AI-assisted design, but progress is difficult to measure because existing evaluations are fragmented across datasets, modalities, and metrics. We introduce CADBench, a unified benchmark for multimodal CAD program generation. CADBench contains 18,000 evaluation samples spanning six benchmark families derived from DeepCAD, Fusion 360, ABC, MCB, and Objaverse; five input modalities including clean meshes, noisy meshes, single-view renders, photorealistic renders, and multi-view renders; and six metrics covering geometric fidelity, executability, and program compactness. STEP-based families are stratified by B-rep face count and all families are diversity-sampled to support controlled analysis across complexity and object variation. We benchmark eleven CAD-specialized and general-purpose vision-language systems, generating more than 1.4 million CAD programs. Under idealized inputs, specialized mesh-to-CAD models substantially outperform code-generating VLMs, which remain far from reliable CAD program reconstruction. CADBench further reveals three recurring failure modes: reconstruction quality degrades with geometric complexity, CAD-specialized models can be brittle under modality shift, and model rankings change across metrics. Together, these results position CADBench as a diagnostic testbed for measuring progress in editable 3D reconstruction and multimodal CAD understanding. The benchmark is publicly available at https://huggingface.co/datasets/DeCoDELab/CADBench.