ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models

📄 arXiv: 2512.06328v1 📥 PDF

作者: Jiahao Li, Yusheng Luo, Yunzhong Lou, Xiangdong Zhou

分类: cs.CV

发布日期: 2025-12-06

备注: Accepted as an Oral presentation at AAAI 2026


💡 一句话要点

ReCAD:利用强化学习增强的参数化CAD模型生成,基于视觉-语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD模型生成 强化学习 视觉-语言模型 参数化建模 多模态学习

📋 核心要点

  1. 现有方法依赖监督微调,缺乏可编辑性,未能充分利用预训练大模型的生成能力,限制了CAD模型生成的精度和泛化性。
  2. ReCAD框架通过强化学习,结合参数化代码指导,增强模型推理能力,并采用分层基元学习,提升几何精度和语义保真度。
  3. 实验结果表明,ReCAD在文本到CAD和图像到CAD任务中均取得了显著提升,尤其在图像到CAD任务中,Chamfer距离大幅降低。

📝 摘要(中文)

本文提出ReCAD,一个强化学习(RL)框架,它利用预训练的大型模型(PLM)的固有生成能力,从多模态输入生成精确的参数化计算机辅助设计(CAD)模型。我们的方法仅需简单的功能接口(例如,点坐标),就能实现复杂的CAD操作(例如,模式复制和镜像)。这与以往的方法形成对比,以往的方法通常依赖于通过监督微调(SFT)注入的知识,对可编辑性的支持有限,并且未能利用PLM强大的生成先验。具体来说,ReCAD框架首先微调视觉-语言模型(VLM),使其具备基本的CAD模型生成能力,我们将CAD脚本重写为参数化代码,用于生成精确的文本描述以进行监督。然后,我们提出了一种新颖的RL策略,该策略结合参数化代码作为指导,以增强模型对具有挑战性问题的推理能力。此外,我们采用分层基元学习过程,在统一的奖励函数下逐步教授结构化和组合技能,该奖励函数确保了几何精度和语义保真度。ReCAD在文本到CAD和图像到CAD任务中都创造了新的state-of-the-art,显著提高了分布内和分布外设置中的几何精度。例如,在图像到CAD任务中,它将平均Chamfer距离从73.47降低到29.61(分布内),从272.06降低到80.23(分布外),大大优于现有的基线。

🔬 方法详解

问题定义:论文旨在解决从多模态输入(文本或图像)生成精确参数化CAD模型的问题。现有方法主要依赖于监督微调,这限制了模型的可编辑性,并且未能充分利用预训练大型模型的生成能力。此外,现有方法在处理复杂CAD操作(如模式复制和镜像)时存在困难。

核心思路:论文的核心思路是利用强化学习(RL)来引导预训练的视觉-语言模型(VLM)生成CAD模型。通过将CAD脚本转换为参数化代码,并将其作为RL的指导信号,可以有效地利用VLM的生成先验知识,并提高模型的推理能力。分层基元学习过程则有助于模型逐步学习结构化和组合技能。

技术框架:ReCAD框架包含以下主要阶段:1) VLM微调:使用参数化代码生成的文本描述对VLM进行微调,使其具备基本的CAD模型生成能力。2) 强化学习:使用RL策略,结合参数化代码作为指导,增强模型对复杂问题的推理能力。3) 分层基元学习:采用分层学习过程,逐步教授模型结构化和组合技能。整个框架使用统一的奖励函数,确保几何精度和语义保真度。

关键创新:ReCAD的关键创新在于将强化学习与参数化代码相结合,以指导VLM生成CAD模型。这种方法能够充分利用预训练模型的生成能力,并克服了传统监督微调方法的局限性。此外,分层基元学习过程也有助于模型学习复杂的CAD操作。

关键设计:参数化代码的设计是关键。它将CAD脚本转换为可参数化的代码,从而可以生成精确的文本描述,用于监督VLM的训练。RL策略的设计也至关重要,它需要能够有效地利用参数化代码作为指导,并平衡几何精度和语义保真度。奖励函数的设计需要能够反映CAD模型的质量,并引导模型学习正确的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReCAD在文本到CAD和图像到CAD任务中均取得了显著的性能提升。在图像到CAD任务中,ReCAD将分布内的平均Chamfer距离从73.47降低到29.61,将分布外的平均Chamfer距离从272.06降低到80.23,大幅超越了现有基线方法,证明了其在几何精度方面的优越性。

🎯 应用场景

ReCAD具有广泛的应用前景,包括自动化设计、产品定制、逆向工程等领域。它可以帮助设计师快速生成CAD模型,提高设计效率,并降低设计成本。此外,ReCAD还可以用于教育和培训,帮助学生和工程师学习CAD建模技术。未来,ReCAD有望成为CAD设计领域的重要工具。

📄 摘要(原文)

We present ReCAD, a reinforcement learning (RL) framework that bootstraps pretrained large models (PLMs) to generate precise parametric computer-aided design (CAD) models from multimodal inputs by leveraging their inherent generative capabilities. With just access to simple functional interfaces (e.g., point coordinates), our approach enables the emergence of complex CAD operations (e.g., pattern replication and mirror). This stands in contrast to previous methods, which typically rely on knowledge injected through supervised fine-tuning (SFT), offer limited support for editability, and fail to exploit the strong generative priors of PLMs. Specifically, the ReCAD framework begins by fine-tuning vision-language models (VLMs) to equip them with basic CAD model generation capabilities, where we rewrite CAD scripts into parameterized code that is leveraged to generate accurate textual descriptions for supervision. Then, we propose a novel RL strategy that incorporates parameterized code as guidance to enhance the model's reasoning on challenging questions. Furthermore, we employ a hierarchical primitive learning process to progressively teach structured and compositional skills under a unified reward function that ensures both geometric accuracy and semantic fidelity. ReCAD sets a new state-of-the-art in both text-to-CAD and image-to-CAD tasks, significantly improving geometric accuracy across in-distribution and out-of-distribution settings. In the image-to-CAD task, for instance, it reduces the mean Chamfer Distance from 73.47 to 29.61 (in-distribution) and from 272.06 to 80.23 (out-of-distribution), outperforming existing baselines by a substantial margin.