GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image

📄 arXiv: 2510.17157v1 📥 PDF

作者: Yinghui Wang, Xinyu Zhang, Peng Du

分类: cs.CV, cs.AI

发布日期: 2025-10-20


💡 一句话要点

GACO-CAD:通过几何增强与简洁性优化,从单张图像生成CAD模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD模型生成 单图像重建 多模态学习 几何先验 强化学习

📋 核心要点

  1. 现有MLLM在单图CAD模型生成中,由于空间推理能力有限,难以准确推断3D几何结构。
  2. GACO-CAD通过几何增强和简洁性优化,利用几何先验提升精度,并使用强化学习鼓励简洁建模。
  3. 实验表明,GACO-CAD在DeepCAD和Fusion360数据集上,代码有效性、几何精度和建模简洁性方面均优于现有方法。

📝 摘要(中文)

本文提出GACO-CAD,一种新颖的两阶段后训练框架,旨在从单张图像生成可编辑的参数化CAD模型,从而降低工业概念设计的门槛。针对当前多模态大语言模型(MLLM)在2D图像中精确推断3D几何结构方面存在的局限性,GACO-CAD通过联合优化几何精度和建模过程的简洁性来解决这一问题。首先,在监督微调阶段,利用深度图和表面法线图作为密集的几何先验,与RGB图像结合形成多通道输入,为单视图重建提供互补的空间线索,帮助MLLM更可靠地从2D观测中恢复3D几何。其次,在强化学习阶段,引入组长度奖励,在保持高几何保真度的同时,促进生成更紧凑、更少冗余的参数化建模序列。采用简单的动态加权策略来稳定训练。在DeepCAD和Fusion360数据集上的实验表明,在相同的MLLM骨干网络下,GACO-CAD取得了最先进的性能,在代码有效性、几何精度和建模简洁性方面始终优于现有方法。

🔬 方法详解

问题定义:论文旨在解决从单张图像生成精确且简洁的参数化CAD模型的问题。现有方法,特别是基于多模态大语言模型的方法,在从2D图像推断3D几何结构时,由于空间推理能力的不足,往往难以保证生成模型的几何精度,并且生成的建模步骤可能冗余繁琐。

核心思路:论文的核心思路是通过引入几何先验信息来增强MLLM的空间推理能力,并利用强化学习来优化生成CAD模型的建模过程,使其更加简洁。通过结合几何精度和建模简洁性两个目标,实现高质量的CAD模型生成。

技术框架:GACO-CAD是一个两阶段的后训练框架。第一阶段是监督微调(Supervised Fine-tuning),利用深度图和表面法线图作为几何先验,与RGB图像结合输入MLLM,以提升几何精度。第二阶段是强化学习(Reinforcement Learning),引入组长度奖励,鼓励生成更简洁的建模序列,同时采用动态加权策略来平衡几何精度和建模简洁性。

关键创新:该方法最重要的创新点在于:1) 将深度图和表面法线图作为几何先验,有效地增强了MLLM从单张图像中恢复3D几何结构的能力。2) 引入组长度奖励,通过强化学习优化建模过程,使其更加简洁高效。与现有方法相比,GACO-CAD能够生成几何精度更高、建模步骤更简洁的CAD模型。

关键设计:在监督微调阶段,使用了多通道输入,将RGB图像、深度图和表面法线图拼接在一起。在强化学习阶段,组长度奖励的设计旨在惩罚冗余的建模步骤,同时采用动态加权策略来平衡几何精度和建模简洁性。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GACO-CAD在DeepCAD和Fusion360数据集上取得了state-of-the-art的性能。实验结果表明,该方法在代码有效性、几何精度和建模简洁性方面均优于现有方法。具体的性能提升数据未在摘要中给出,属于未知信息。

🎯 应用场景

GACO-CAD具有广泛的应用前景,可应用于工业概念设计、产品原型设计、逆向工程等领域。通过降低CAD模型创建的门槛,可以加速产品开发流程,提高设计效率,并为非专业人士提供便捷的3D建模工具。该研究的成果有助于推动制造业的数字化转型。

📄 摘要(原文)

Generating editable, parametric CAD models from a single image holds great potential to lower the barriers of industrial concept design. However, current multi-modal large language models (MLLMs) still struggle with accurately inferring 3D geometry from 2D images due to limited spatial reasoning capabilities. We address this limitation by introducing GACO-CAD, a novel two-stage post-training framework. It is designed to achieve a joint objective: simultaneously improving the geometric accuracy of the generated CAD models and encouraging the use of more concise modeling procedures. First, during supervised fine-tuning, we leverage depth and surface normal maps as dense geometric priors, combining them with the RGB image to form a multi-channel input. In the context of single-view reconstruction, these priors provide complementary spatial cues that help the MLLM more reliably recover 3D geometry from 2D observations. Second, during reinforcement learning, we introduce a group length reward that, while preserving high geometric fidelity, promotes the generation of more compact and less redundant parametric modeling sequences. A simple dynamic weighting strategy is adopted to stabilize training. Experiments on the DeepCAD and Fusion360 datasets show that GACO-CAD achieves state-of-the-art performance under the same MLLM backbone, consistently outperforming existing methods in terms of code validity, geometric accuracy, and modeling conciseness.