CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs

作者: Siyu Wang, Cailian Chen, Xinyi Le, Qimin Xu, Lei Xu, Yanzhou Zhang, Jie Yang

分类: cs.CV, cs.AI, cs.GR

发布日期: 2024-12-27 (更新: 2025-06-23)

备注: Accepted at AAAI 2025 (Vol. 39, No. 8), pages 7880-7888. DOI: 10.1609/aaai.v39i8.32849

期刊: Proc. of the AAAI Conf. on Artificial Intelligence, 39(8):7880-7888, 2025

DOI: 10.1609/aaai.v39i8.32849

💡 一句话要点

CAD-GPT：利用空间推理增强的多模态LLM合成CAD构建序列

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: CAD模型生成 多模态学习 大型语言模型 空间推理 3D建模 计算机辅助设计 几何建模

📋 核心要点

现有CAD模型生成方法依赖难以获取的潜在向量或点云，且存储成本高，限制了其应用。
CAD-GPT通过引入3D建模空间机制，将3D空间信息编码到1D语言特征空间，实现精确的空间推理。
实验结果表明，CAD-GPT在CAD模型合成任务中，性能显著优于现有方法，具有更好的定量和定性表现。

📝 摘要（中文）

本文提出CAD-GPT，一种利用空间推理增强的多模态大型语言模型（MLLM）进行CAD合成的方法，输入可以是单张图像或文本描述。现有CAD模型创建方法依赖于难以获取的潜在向量或点云，且存储成本高昂。虽然MLLM的最新进展启发了研究人员使用自然语言指令和图像进行CAD模型构建，但这些模型在推断准确的3D空间位置和方向方面仍然存在困难，导致在确定几何体的空间3D起始点和拉伸方向时出现不准确。CAD-GPT引入了3D建模空间机制，通过专门的空间展开机制将3D空间位置和3D草图平面旋转角度映射到1D语言特征空间，同时将2D草图坐标离散化到适当的平面空间，从而能够精确确定空间起始位置、草图方向和2D草图坐标平移。大量实验表明，CAD-GPT在CAD模型合成方面始终优于现有的最先进方法，无论是在定量还是定性方面。

🔬 方法详解

问题定义：现有CAD模型生成方法主要依赖于潜在向量或点云，这些数据难以获取且存储成本高昂。此外，现有的多模态大语言模型（MLLM）在处理CAD模型构建任务时，难以准确推断3D空间位置和方向，导致生成的CAD模型在空间起始点和拉伸方向上存在误差。

核心思路：CAD-GPT的核心思路是通过引入一个3D建模空间机制，将3D空间位置和3D草图平面旋转角度映射到一维语言特征空间。这种方法允许模型在语言空间中进行空间推理，从而更准确地确定CAD模型的空间结构。同时，将2D草图坐标离散化到平面空间，有助于精确确定空间起始位置、草图方向和2D草图坐标平移。

技术框架：CAD-GPT的整体框架包括以下几个主要模块：1) 输入模块：接收单张图像或文本描述作为输入。2) 特征提取模块：利用MLLM提取输入图像或文本的特征。3) 3D建模空间机制：将3D空间信息编码到1D语言特征空间。4) CAD模型生成模块：基于编码后的空间信息和提取的特征，生成CAD模型构建序列。

关键创新：CAD-GPT最重要的技术创新点在于其3D建模空间机制。该机制通过空间展开将连续的3D空间信息映射到离散的1D语言空间，使得MLLM能够更好地理解和推理3D空间关系。这种方法避免了直接在连续空间中进行推理的困难，提高了模型生成CAD模型的准确性。

关键设计：CAD-GPT的关键设计包括：1) 空间展开机制的具体实现，例如如何选择合适的映射函数和离散化策略。2) MLLM的选择和训练，例如如何利用CAD数据集对MLLM进行微调，以提高其在CAD模型生成任务上的性能。3) 损失函数的设计，例如如何结合空间约束和几何约束来优化生成的CAD模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CAD-GPT在CAD模型合成任务中，无论是在定量指标（如准确率、完整性）还是定性评估（如视觉质量、结构合理性）方面，均显著优于现有的最先进方法。具体的性能提升数据未知，但论文强调了CAD-GPT在空间推理方面的优势，使其能够生成更准确、更符合设计意图的CAD模型。

🎯 应用场景

CAD-GPT具有广泛的应用前景，包括：1) 自动化CAD模型设计：根据图像或文本描述自动生成CAD模型，提高设计效率。2) CAD教育：辅助用户学习CAD软件，提供更直观的建模指导。3) 逆向工程：从现有产品图像或描述中重建CAD模型。未来，该技术有望与虚拟现实/增强现实技术结合，实现更沉浸式的CAD设计体验。

📄 摘要（原文）

Computer-aided design (CAD) significantly enhances the efficiency, accuracy, and innovation of design processes by enabling precise 2D and 3D modeling, extensive analysis, and optimization. Existing methods for creating CAD models rely on latent vectors or point clouds, which are difficult to obtain, and storage costs are substantial. Recent advances in Multimodal Large Language Models (MLLMs) have inspired researchers to use natural language instructions and images for CAD model construction. However, these models still struggle with inferring accurate 3D spatial location and orientation, leading to inaccuracies in determining the spatial 3D starting points and extrusion directions for constructing geometries. This work introduces CAD-GPT, a CAD synthesis method with spatial reasoning-enhanced MLLM that takes either a single image or a textual description as input. To achieve precise spatial inference, our approach introduces a 3D Modeling Spatial Mechanism. This method maps 3D spatial positions and 3D sketch plane rotation angles into a 1D linguistic feature space using a specialized spatial unfolding mechanism, while discretizing 2D sketch coordinates into an appropriate planar space to enable precise determination of spatial starting position, sketch orientation, and 2D sketch coordinate translations. Extensive experiments demonstrate that CAD-GPT consistently outperforms existing state-of-the-art methods in CAD model synthesis, both quantitatively and qualitatively.

CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理