CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation
作者: Jianyu Wu, Yizhou Wang, Xiangyu Yue, Xinzhu Ma, Jingyang Guo, Dongzhan Zhou, Wanli Ouyang, Shixiang Tang
分类: cs.CV
发布日期: 2025-04-29 (更新: 2025-08-06)
💡 一句话要点
提出CMT框架以解决多模态CAD生成问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机辅助设计 多模态生成 边界表示 级联MAR 拓扑预测器 工业设计 数据集mmABC
📋 核心要点
- 现有CAD生成方法存在过于简化的表示或架构,无法满足多模态设计需求,导致生成效果不理想。
- 本文提出了CMT框架,通过级联MAR与拓扑预测器,有效捕捉B-Rep中的重要先验知识,提升CAD生成能力。
- 实验结果显示,CMT在无条件生成任务中Coverage和Valid比率分别提高了10.68%和10.3%,在图像条件CAD生成中Chamfer指标提升了4.01。
📝 摘要(中文)
计算机辅助设计(CAD)在工业设计和制造中至关重要,但现有方法因过于简化的表示或架构无法支持多模态设计需求而面临挑战。本文提出了一种级联MAR与拓扑预测器(CMT),这是基于边界表示(B-Rep)的首个多模态CAD生成框架。CMT能够有效捕捉B-Rep中“边缘-计数-表面”的先验知识,同时拓扑预测器能够直接从MAR中的紧凑标记估计B-Rep的拓扑。为支持大规模训练,本文还开发了包含130万多个B-Rep模型的多模态CAD数据集mmABC。实验结果表明,CMT在条件和无条件CAD生成任务中均表现优越。
🔬 方法详解
问题定义:本文旨在解决现有CAD生成方法在多模态设计需求下的不足,特别是由于简化表示导致的生成效果不佳的问题。
核心思路:提出的CMT框架结合了级联MAR和拓扑预测器,能够有效捕捉B-Rep中的“边缘-计数-表面”先验知识,从而提升CAD生成的准确性和多样性。
技术框架:CMT框架主要包括两个模块:级联MAR用于捕捉B-Rep的先验知识,拓扑预测器用于从MAR的紧凑标记中直接估计B-Rep的拓扑结构。
关键创新:CMT是首个基于B-Rep的多模态CAD生成框架,能够同时处理多种输入形式,显著提升了生成效果,与现有方法相比具有本质区别。
关键设计:在模型设计中,采用了特定的损失函数以优化生成质量,并通过大规模数据集mmABC进行训练,确保模型的泛化能力和实用性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CMT在无条件CAD生成任务中Coverage和Valid比率分别提高了10.68%和10.3%,在图像条件CAD生成中Chamfer指标提升了4.01,显示出其在生成质量上的显著优势。
🎯 应用场景
该研究的潜在应用领域包括工业设计、产品原型制作和建筑设计等。通过提供更准确和用户友好的CAD生成工具,CMT框架能够加速设计流程,提高设计效率,具有重要的实际价值和未来影响。
📄 摘要(原文)
While accurate and user-friendly Computer-Aided Design (CAD) is crucial for industrial design and manufacturing, existing methods still struggle to achieve this due to their over-simplified representations or architectures incapable of supporting multimodal design requirements. In this paper, we attempt to tackle this problem from both methods and datasets aspects. First, we propose a cascade MAR with topology predictor (CMT), the first multimodal framework for CAD generation based on Boundary Representation (B-Rep). Specifically, the cascade MAR can effectively capture the ``edge-counters-surface'' priors that are essential in B-Reps, while the topology predictor directly estimates topology in B-Reps from the compact tokens in MAR. Second, to facilitate large-scale training, we develop a large-scale multimodal CAD dataset, mmABC, which includes over 1.3 million B-Rep models with multimodal annotations, including point clouds, text descriptions, and multi-view images. Extensive experiments show the superior of CMT in both conditional and unconditional CAD generation tasks. For example, we improve Coverage and Valid ratio by +10.68% and +10.3%, respectively, compared to state-of-the-art methods on ABC in unconditional generation. CMT also improves +4.01 Chamfer on image conditioned CAD generation on mmABC.