CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation

作者: Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

分类: cs.CV, cs.AI

发布日期: 2026-05-11

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

提出CADBench多模态基准，系统性评估AI辅助CAD程序生成的性能与鲁棒性

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: CAD程序生成 多模态基准 3D重建 计算机辅助设计 视觉语言模型 几何建模

📋 核心要点

现有CAD程序生成研究缺乏统一的评估标准，导致不同数据集、模态和指标下的模型性能难以横向对比。
CADBench通过整合多源数据集与五种输入模态，构建了包含18,000个样本的标准化评估框架，支持多维度性能分析。
实验表明，专用模型在理想输入下优于通用VLM，但整体在复杂几何重建和模态鲁棒性上仍面临显著挑战。

📝 摘要（中文）

从图像或3D观测中恢复可编辑的CAD程序是AI辅助设计的核心，但由于现有评估方法在数据集、模态和指标上高度碎片化，进展难以衡量。为此，本文提出了CADBench，这是一个统一的多模态CAD程序生成基准。CADBench包含18,000个评估样本，涵盖了来自DeepCAD、Fusion 360、ABC、MCB和Objaverse的六个基准家族；支持五种输入模态（包括干净网格、噪声网格、单/多视图渲染等）；并采用六项指标评估几何保真度、可执行性和程序紧凑性。通过对11个CAD专用模型和通用视觉语言模型（VLM）进行大规模基准测试，研究揭示了模型在几何复杂度增加时的性能退化、模态迁移下的脆弱性以及指标间排名的不一致性，为可编辑3D重建提供了诊断性测试平台。

🔬 方法详解

问题定义：论文旨在解决AI辅助CAD建模领域中评估标准碎片化的问题。现有研究往往局限于特定数据集或单一模态，导致无法客观衡量模型在处理复杂几何结构、不同输入质量及跨模态场景下的泛化能力与重建质量。

核心思路：构建一个统一的诊断性基准测试平台。通过对齐多种输入模态（从几何网格到渲染图像）并引入多维度的评估指标（几何、程序、紧凑性），实现对CAD生成模型性能的全面量化，从而揭示模型在不同复杂度下的失效模式。

技术框架：CADBench框架由数据层、模态层和指标层组成。数据层整合了DeepCAD等主流数据集并进行多样性采样；模态层支持从纯几何到视觉渲染的五种输入形式；指标层则通过几何保真度（如Chamfer距离）、程序可执行性（编译成功率）和程序紧凑性（代码长度）进行综合评分。

关键创新：首次实现了跨数据集、跨模态的统一评估体系。通过对STEP文件进行基于B-rep面数的复杂度分层，以及对所有家族进行多样性采样，确保了基准测试在不同几何复杂度和对象类别下的公平性与可控性。

关键设计：采用了多维指标体系，不仅关注最终生成的几何形状，还强调CAD程序的逻辑正确性（可执行性）和工程实用性（紧凑性）。此外，通过大规模基准测试（140万+程序生成），明确了模型在几何复杂度增加时的性能退化规律，并量化了模态迁移带来的鲁棒性损失。

🖼️ 关键图片

📊 实验亮点

CADBench通过对11个主流模型进行超140万次生成测试，揭示了关键性能瓶颈：在理想输入下，专用模型显著优于通用VLM；但在复杂几何场景下，重建质量普遍下降。此外，研究发现模型在模态迁移（如从网格到渲染图）时表现脆弱，且不同指标下的模型排名存在显著差异，证明了多维度评估的必要性。

🎯 应用场景

该研究为工业设计自动化、计算机辅助设计（CAD）软件的智能化升级提供了关键评估工具。其研究成果可直接用于指导生成式CAD模型的设计与优化，推动从静态3D重建向可编辑、参数化建模的范式转变，在制造业数字化转型和智能制造领域具有深远影响。

📄 摘要（原文）

Recovering editable CAD programs from images or 3D observations is central to AI-assisted design, but progress is difficult to measure because existing evaluations are fragmented across datasets, modalities, and metrics. We introduce CADBench, a unified benchmark for multimodal CAD program generation. CADBench contains 18,000 evaluation samples spanning six benchmark families derived from DeepCAD, Fusion 360, ABC, MCB, and Objaverse; five input modalities including clean meshes, noisy meshes, single-view renders, photorealistic renders, and multi-view renders; and six metrics covering geometric fidelity, executability, and program compactness. STEP-based families are stratified by B-rep face count and all families are diversity-sampled to support controlled analysis across complexity and object variation. We benchmark eleven CAD-specialized and general-purpose vision-language systems, generating more than 1.4 million CAD programs. Under idealized inputs, specialized mesh-to-CAD models substantially outperform code-generating VLMs, which remain far from reliable CAD program reconstruction. CADBench further reveals three recurring failure modes: reconstruction quality degrades with geometric complexity, CAD-specialized models can be brittle under modality shift, and model rankings change across metrics. Together, these results position CADBench as a diagnostic testbed for measuring progress in editable 3D reconstruction and multimodal CAD understanding. The benchmark is publicly available at https://huggingface.co/datasets/DeCoDELab/CADBench.

CADBench: A Multimodal Benchmark for AI-Assisted CAD Program Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理