GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image

作者: Yinghui Wang, Xinyu Zhang, Peng Du

分类: cs.CV, cs.AI

发布日期: 2025-10-20

💡 一句话要点

GACO-CAD：通过几何增强与简洁性优化，从单张图像生成CAD模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: CAD模型生成 单图像重建 多模态学习 几何先验 强化学习

📋 核心要点

现有MLLM在单图CAD模型生成中，由于空间推理能力有限，难以准确推断3D几何结构。
GACO-CAD通过几何增强和简洁性优化，利用几何先验提升精度，并使用强化学习鼓励简洁建模。
实验表明，GACO-CAD在DeepCAD和Fusion360数据集上，代码有效性、几何精度和建模简洁性方面均优于现有方法。

📝 摘要（中文）

本文提出GACO-CAD，一种新颖的两阶段后训练框架，旨在从单张图像生成可编辑的参数化CAD模型，从而降低工业概念设计的门槛。针对当前多模态大语言模型(MLLM)在2D图像中精确推断3D几何结构方面存在的局限性，GACO-CAD通过联合优化几何精度和建模过程的简洁性来解决这一问题。首先，在监督微调阶段，利用深度图和表面法线图作为密集的几何先验，与RGB图像结合形成多通道输入，为单视图重建提供互补的空间线索，帮助MLLM更可靠地从2D观测中恢复3D几何。其次，在强化学习阶段，引入组长度奖励，在保持高几何保真度的同时，促进生成更紧凑、更少冗余的参数化建模序列。采用简单的动态加权策略来稳定训练。在DeepCAD和Fusion360数据集上的实验表明，在相同的MLLM骨干网络下，GACO-CAD取得了最先进的性能，在代码有效性、几何精度和建模简洁性方面始终优于现有方法。

🔬 方法详解

问题定义：论文旨在解决从单张图像生成精确且简洁的参数化CAD模型的问题。现有方法，特别是基于多模态大语言模型的方法，在从2D图像推断3D几何结构时，由于空间推理能力的不足，往往难以保证生成模型的几何精度，并且生成的建模步骤可能冗余繁琐。

核心思路：论文的核心思路是通过引入几何先验信息来增强MLLM的空间推理能力，并利用强化学习来优化生成CAD模型的建模过程，使其更加简洁。通过结合几何精度和建模简洁性两个目标，实现高质量的CAD模型生成。

技术框架：GACO-CAD是一个两阶段的后训练框架。第一阶段是监督微调（Supervised Fine-tuning），利用深度图和表面法线图作为几何先验，与RGB图像结合输入MLLM，以提升几何精度。第二阶段是强化学习（Reinforcement Learning），引入组长度奖励，鼓励生成更简洁的建模序列，同时采用动态加权策略来平衡几何精度和建模简洁性。

关键创新：该方法最重要的创新点在于：1) 将深度图和表面法线图作为几何先验，有效地增强了MLLM从单张图像中恢复3D几何结构的能力。2) 引入组长度奖励，通过强化学习优化建模过程，使其更加简洁高效。与现有方法相比，GACO-CAD能够生成几何精度更高、建模步骤更简洁的CAD模型。

关键设计：在监督微调阶段，使用了多通道输入，将RGB图像、深度图和表面法线图拼接在一起。在强化学习阶段，组长度奖励的设计旨在惩罚冗余的建模步骤，同时采用动态加权策略来平衡几何精度和建模简洁性。具体的损失函数和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

GACO-CAD在DeepCAD和Fusion360数据集上取得了state-of-the-art的性能。实验结果表明，该方法在代码有效性、几何精度和建模简洁性方面均优于现有方法。具体的性能提升数据未在摘要中给出，属于未知信息。

🎯 应用场景

GACO-CAD具有广泛的应用前景，可应用于工业概念设计、产品原型设计、逆向工程等领域。通过降低CAD模型创建的门槛，可以加速产品开发流程，提高设计效率，并为非专业人士提供便捷的3D建模工具。该研究的成果有助于推动制造业的数字化转型。

📄 摘要（原文）

Generating editable, parametric CAD models from a single image holds great potential to lower the barriers of industrial concept design. However, current multi-modal large language models (MLLMs) still struggle with accurately inferring 3D geometry from 2D images due to limited spatial reasoning capabilities. We address this limitation by introducing GACO-CAD, a novel two-stage post-training framework. It is designed to achieve a joint objective: simultaneously improving the geometric accuracy of the generated CAD models and encouraging the use of more concise modeling procedures. First, during supervised fine-tuning, we leverage depth and surface normal maps as dense geometric priors, combining them with the RGB image to form a multi-channel input. In the context of single-view reconstruction, these priors provide complementary spatial cues that help the MLLM more reliably recover 3D geometry from 2D observations. Second, during reinforcement learning, we introduce a group length reward that, while preserving high geometric fidelity, promotes the generation of more compact and less redundant parametric modeling sequences. A simple dynamic weighting strategy is adopted to stabilize training. Experiments on the DeepCAD and Fusion360 datasets show that GACO-CAD achieves state-of-the-art performance under the same MLLM backbone, consistently outperforming existing methods in terms of code validity, geometric accuracy, and modeling conciseness.

GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理