cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

📄 arXiv: 2505.22914v2 📥 PDF

作者: Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich

分类: cs.CV, cs.LG

发布日期: 2025-05-28 (更新: 2025-09-19)


💡 一句话要点

Cadrille:基于在线强化学习的多模态CAD重建模型,实现更精确的三维模型生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD重建 多模态融合 强化学习 视觉-语言模型 在线学习 三维建模 深度学习

📋 核心要点

  1. 现有CAD重建方法通常只依赖单一模态输入(点云、图像、文本),泛化性和鲁棒性受限。
  2. Cadrille模型利用VLM,融合点云、图像和文本三种模态信息,实现更全面的CAD重建。
  3. 通过SFT和在线RL微调,Cadrille在DeepCAD等数据集上超越现有方法,并在真实数据集上取得SOTA。

📝 摘要(中文)

计算机辅助设计(CAD)在工程和制造中起着核心作用,它使得创建精确且可编辑的3D模型成为可能。使用各种传感器或用户提供的数据作为CAD重建的输入可以普及设计应用。然而,现有的方法通常侧重于单一的输入模态,如点云、图像或文本,这限制了它们的泛化性和鲁棒性。利用视觉-语言模型(VLM)的最新进展,我们提出了一种多模态CAD重建模型,该模型同时处理所有三种输入模态。受到大型语言模型(LLM)训练范式的启发,我们采用了一个两阶段的流程:在大规模程序生成的数据上进行监督式微调(SFT),然后使用在线反馈进行强化学习(RL)微调,这些反馈是通过编程方式获得的。此外,我们首次探索了LLM的RL微调用于CAD任务,证明了在线RL算法(如Group Relative Preference Optimization (GRPO))优于离线替代方案。在DeepCAD基准测试中,我们的SFT模型在所有三种输入模态中都优于现有的单模态方法。更重要的是,在RL微调之后,cadrille在三个具有挑战性的数据集上设置了新的state-of-the-art,包括一个真实世界的数据集。

🔬 方法详解

问题定义:论文旨在解决CAD重建中对单一输入模态的依赖问题,现有方法无法充分利用多种模态的信息,导致重建结果的泛化性和鲁棒性较差。此外,如何有效地利用大型语言模型进行CAD任务的微调也是一个挑战。

核心思路:论文的核心思路是利用多模态信息融合,结合视觉-语言模型(VLM)的强大能力,并通过两阶段的训练策略(监督式微调SFT和强化学习RL微调)来优化CAD重建模型。这种设计旨在充分利用不同模态的互补信息,并利用RL来学习更符合实际需求的重建策略。

技术框架:Cadrille模型采用两阶段训练框架。首先,使用大规模程序生成的数据进行监督式微调(SFT),使模型初步具备多模态CAD重建能力。然后,使用在线强化学习(RL)进行微调,通过编程方式获取反馈信号,优化模型的重建策略。RL阶段采用Group Relative Preference Optimization (GRPO)算法。

关键创新:该论文的关键创新在于:1) 提出了一种多模态CAD重建模型,能够同时处理点云、图像和文本三种输入模态;2) 首次探索了LLM的RL微调用于CAD任务,并证明了在线RL算法的有效性;3) 使用程序生成的数据进行SFT,并结合在线RL进行微调,显著提升了CAD重建的性能。

关键设计:在SFT阶段,使用大规模程序生成的数据集进行训练,数据集包含多种CAD模型及其对应的点云、图像和文本描述。在RL阶段,使用GRPO算法进行在线微调,奖励函数的设计至关重要,需要能够准确反映重建结果的质量。具体参数设置和网络结构细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Cadrille模型在DeepCAD基准测试中,SFT模型在所有三种输入模态下均优于现有单模态方法。经过RL微调后,Cadrille在三个具有挑战性的数据集上取得了state-of-the-art的结果,包括一个真实世界的数据集。具体性能提升数据未知,但结果表明该方法在CAD重建任务上具有显著优势。

🎯 应用场景

该研究成果可广泛应用于工程设计、产品制造、建筑设计等领域。通过融合多种模态信息,可以更准确、更高效地重建CAD模型,降低设计成本,提高设计效率。未来,该技术有望应用于智能制造、虚拟现实、增强现实等领域,实现更智能化的设计和制造过程。

📄 摘要(原文)

Computer-Aided Design (CAD) plays a central role in engineering and manufacturing, making it possible to create precise and editable 3D models. Using a variety of sensor or user-provided data as inputs for CAD reconstruction can democratize access to design applications. However, existing methods typically focus on a single input modality, such as point clouds, images, or text, which limits their generalizability and robustness. Leveraging recent advances in vision-language models (VLM), we propose a multi-modal CAD reconstruction model that simultaneously processes all three input modalities. Inspired by large language model (LLM) training paradigms, we adopt a two-stage pipeline: supervised fine-tuning (SFT) on large-scale procedurally generated data, followed by reinforcement learning (RL) fine-tuning using online feedback, obtained programatically. Furthermore, we are the first to explore RL fine-tuning of LLMs for CAD tasks demonstrating that online RL algorithms such as Group Relative Preference Optimization (GRPO) outperform offline alternatives. In the DeepCAD benchmark, our SFT model outperforms existing single-modal approaches in all three input modalities simultaneously. More importantly, after RL fine-tuning, cadrille sets new state-of-the-art on three challenging datasets, including a real-world one.