MUSE: Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation

作者: Xiaoyu Dong, Zhi Li, Xiao-Ming Wu

分类: cs.AI

发布日期: 2026-05-27

备注: 26 pages

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

MUSE：面向可制造、功能化和可组装的文本驱动CAD生成基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Text-to-CAD 基准测试 工业设计 功能性 可制造性 可组装性 视觉语言模型 B-Rep

📋 核心要点

现有Text-to-CAD基准测试侧重于单部件几何相似性，忽略了工业设计中重要的功能性、可制造性和可组装性。
MUSE基准测试通过引入复杂B-Rep组件、结构化设计规范和三阶段评估协议，更全面地评估Text-to-CAD模型。
实验表明，现有LLM在生成满足细粒度工程标准的CAD模型方面存在明显不足，揭示了从代码到几何再到设计的失败级联。

📝 摘要（中文）

大型语言模型（LLMs）最近推动了文本驱动的3D生成技术的发展，但文本到CAD的生成仍然远未达到支持工业产品设计的水平。现有的基准测试主要集中于生成单部件CAD模型，并使用几何相似性指标进行评估，而这些指标无法捕捉功能性、可制造性和可组装性。为了解决这一差距，我们推出了MUSE，这是一个专注于复杂、可编辑的边界表示（B-Rep）组件的文本到CAD基准测试。MUSE将实际设计实例与结构化的设计规范配对，并通过三个阶段的协议评估生成的模型：代码检查、几何检查和设计意图对齐。最后阶段使用特定于设计的评估标准来评估功能性、可制造性和可组装性，从而超越形状匹配，转向实际的设计质量。为了实现可扩展的评估，我们使用基于评估标准的视觉语言模型（VLM）裁判，并通过人工标注验证其可靠性。对闭源和开源LLM的实验表明，从可执行代码到有效几何体，最终到工程就绪的设计，存在明显的失败级联，即使是最强大的模型在细粒度的工程标准上也只能取得有限的成功。总而言之，MUSE提供了一个现实的基准和评估框架，用于将文本到CAD从几何生成推进到真正的工程设计。

🔬 方法详解

问题定义：现有Text-to-CAD方法生成的模型难以满足工业设计的实际需求，主要体现在忽略了功能性、可制造性和可组装性等关键因素。现有的评估指标主要关注几何相似性，无法有效衡量设计的工程质量。

核心思路：MUSE的核心思路是构建一个更贴近实际工业设计场景的基准测试，通过引入复杂组件、结构化设计规范和多阶段评估协议，全面评估Text-to-CAD模型生成工程就绪设计的真实能力。

技术框架：MUSE的评估框架包含三个主要阶段：1) 代码检查：验证生成的代码是否可执行；2) 几何检查：验证生成的几何体是否有效；3) 设计意图对齐：使用特定于设计的评估标准，评估功能性、可制造性和可组装性。其中，设计意图对齐阶段使用基于评估标准的视觉语言模型（VLM）作为裁判，并通过人工标注验证其可靠性。

关键创新：MUSE的关键创新在于其评估指标体系，它超越了传统的几何相似性度量，引入了功能性、可制造性和可组装性等工程设计领域的核心考量。此外，使用VLM进行可扩展的评估也是一个重要的创新点。

关键设计：MUSE使用特定于设计的评估标准（rubrics）来评估功能性、可制造性和可组装性。这些评估标准是根据实际设计实例和结构化设计规范制定的。VLM裁判的训练和验证过程也至关重要，需要确保其能够准确地评估设计质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最强大的LLM在MUSE基准测试中也表现出明显的失败级联，从可执行代码到有效几何体，最终到工程就绪的设计，都存在不足。这突显了现有Text-to-CAD模型在满足细粒度工程标准方面的局限性，并强调了MUSE基准测试的必要性。

🎯 应用场景

MUSE基准测试可用于评估和改进Text-to-CAD模型，推动其在工业产品设计领域的应用。通过更全面地评估模型的功能性、可制造性和可组装性，可以帮助开发出更符合实际需求的CAD生成系统，加速产品设计流程，降低设计成本，并促进创新。

📄 摘要（原文）

Large language models (LLMs) have recently advanced text-driven 3D generation, yet Text-to-CAD remains far from supporting industrial product design. Existing benchmarks focus primarily on generating single-part CAD models and evaluate them using geometric similarity metrics that fail to capture functionality, manufacturability, and assemblability. To address this gap, we introduce MUSE, a Text-to-CAD benchmark focused on complex, editable boundary representation (B-Rep) assemblies. MUSE pairs practical design instances with structured Design Specifications and evaluates generated models through a three-stage protocol: code check, geometric check, and design-intent alignment. The final stage uses design-specific rubrics to assess functionality, manufacturability, and assemblability, moving beyond shape matching toward practical design quality. To enable scalable evaluation, we use a rubric-based visual language model (VLM) judge and validate its reliability through human annotation. Experiments on closed-source and open-source LLMs reveal a clear failure cascade from executable code to valid geometry and finally to engineering-ready design, with even the strongest models achieving limited success on fine-grained engineering criteria. Together, MUSE provides a realistic benchmark and evaluation framework for advancing Text-to-CAD from geometric generation toward true engineering design. Our project website, including the leaderboard, dataset, and code, is available at https://dong7313.github.io/muse-benchmark/.

MUSE: Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理