MUSE: Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation

📄 arXiv: 2605.28579v1 📥 PDF

作者: Xiaoyu Dong, Zhi Li, Xiao-Ming Wu

分类: cs.AI

发布日期: 2026-05-27

备注: 26 pages

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MUSE:面向可制造、功能化和可组装的文本驱动CAD生成基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-CAD 基准测试 工业设计 功能性 可制造性 可组装性 视觉语言模型 B-Rep

📋 核心要点

  1. 现有Text-to-CAD基准测试侧重于单部件几何相似性,忽略了工业设计中重要的功能性、可制造性和可组装性。
  2. MUSE基准测试通过引入复杂B-Rep组件、结构化设计规范和三阶段评估协议,更全面地评估Text-to-CAD模型。
  3. 实验表明,现有LLM在生成满足细粒度工程标准的CAD模型方面存在明显不足,揭示了从代码到几何再到设计的失败级联。

📝 摘要(中文)

大型语言模型(LLMs)最近推动了文本驱动的3D生成技术的发展,但文本到CAD的生成仍然远未达到支持工业产品设计的水平。现有的基准测试主要集中于生成单部件CAD模型,并使用几何相似性指标进行评估,而这些指标无法捕捉功能性、可制造性和可组装性。为了解决这一差距,我们推出了MUSE,这是一个专注于复杂、可编辑的边界表示(B-Rep)组件的文本到CAD基准测试。MUSE将实际设计实例与结构化的设计规范配对,并通过三个阶段的协议评估生成的模型:代码检查、几何检查和设计意图对齐。最后阶段使用特定于设计的评估标准来评估功能性、可制造性和可组装性,从而超越形状匹配,转向实际的设计质量。为了实现可扩展的评估,我们使用基于评估标准的视觉语言模型(VLM)裁判,并通过人工标注验证其可靠性。对闭源和开源LLM的实验表明,从可执行代码到有效几何体,最终到工程就绪的设计,存在明显的失败级联,即使是最强大的模型在细粒度的工程标准上也只能取得有限的成功。总而言之,MUSE提供了一个现实的基准和评估框架,用于将文本到CAD从几何生成推进到真正的工程设计。

🔬 方法详解

问题定义:现有Text-to-CAD方法生成的模型难以满足工业设计的实际需求,主要体现在忽略了功能性、可制造性和可组装性等关键因素。现有的评估指标主要关注几何相似性,无法有效衡量设计的工程质量。

核心思路:MUSE的核心思路是构建一个更贴近实际工业设计场景的基准测试,通过引入复杂组件、结构化设计规范和多阶段评估协议,全面评估Text-to-CAD模型生成工程就绪设计的真实能力。

技术框架:MUSE的评估框架包含三个主要阶段:1) 代码检查:验证生成的代码是否可执行;2) 几何检查:验证生成的几何体是否有效;3) 设计意图对齐:使用特定于设计的评估标准,评估功能性、可制造性和可组装性。其中,设计意图对齐阶段使用基于评估标准的视觉语言模型(VLM)作为裁判,并通过人工标注验证其可靠性。

关键创新:MUSE的关键创新在于其评估指标体系,它超越了传统的几何相似性度量,引入了功能性、可制造性和可组装性等工程设计领域的核心考量。此外,使用VLM进行可扩展的评估也是一个重要的创新点。

关键设计:MUSE使用特定于设计的评估标准(rubrics)来评估功能性、可制造性和可组装性。这些评估标准是根据实际设计实例和结构化设计规范制定的。VLM裁判的训练和验证过程也至关重要,需要确保其能够准确地评估设计质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最强大的LLM在MUSE基准测试中也表现出明显的失败级联,从可执行代码到有效几何体,最终到工程就绪的设计,都存在不足。这突显了现有Text-to-CAD模型在满足细粒度工程标准方面的局限性,并强调了MUSE基准测试的必要性。

🎯 应用场景

MUSE基准测试可用于评估和改进Text-to-CAD模型,推动其在工业产品设计领域的应用。通过更全面地评估模型的功能性、可制造性和可组装性,可以帮助开发出更符合实际需求的CAD生成系统,加速产品设计流程,降低设计成本,并促进创新。

📄 摘要(原文)

Large language models (LLMs) have recently advanced text-driven 3D generation, yet Text-to-CAD remains far from supporting industrial product design. Existing benchmarks focus primarily on generating single-part CAD models and evaluate them using geometric similarity metrics that fail to capture functionality, manufacturability, and assemblability. To address this gap, we introduce MUSE, a Text-to-CAD benchmark focused on complex, editable boundary representation (B-Rep) assemblies. MUSE pairs practical design instances with structured Design Specifications and evaluates generated models through a three-stage protocol: code check, geometric check, and design-intent alignment. The final stage uses design-specific rubrics to assess functionality, manufacturability, and assemblability, moving beyond shape matching toward practical design quality. To enable scalable evaluation, we use a rubric-based visual language model (VLM) judge and validate its reliability through human annotation. Experiments on closed-source and open-source LLMs reveal a clear failure cascade from executable code to valid geometry and finally to engineering-ready design, with even the strongest models achieving limited success on fine-grained engineering criteria. Together, MUSE provides a realistic benchmark and evaluation framework for advancing Text-to-CAD from geometric generation toward true engineering design. Our project website, including the leaderboard, dataset, and code, is available at https://dong7313.github.io/muse-benchmark/.