CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning

作者: Ke Niu, Zhuofan Chen, Haiyang Yu, Yuwen Chen, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue

分类: cs.CV

发布日期: 2025-05-31 (更新: 2025-10-20)

💡 一句话要点

CReFT-CAD：通过强化微调提升CAD正交投影推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 计算机辅助设计 正交投影推理 视觉语言模型 强化学习 监督微调 CAD 三维重建 课程学习

📋 核心要点

现有深度学习方法在CAD领域采用3D重建替代正交投影推理，导致尺寸不精确和参数编辑受限。
CReFT-CAD通过课程驱动的强化学习和监督后微调，提升VLM在CAD正交投影推理中的能力。
TriView2CAD数据集包含20万合成和3千真实正交投影，实验证明CReFT-CAD显著提升推理精度和泛化性。

📝 摘要（中文）

计算机辅助设计(CAD)在工业制造中起着关键作用。正交投影推理是整个CAD工作流程的基础，涵盖设计、制造和仿真。然而，目前流行的深度学习方法采用标准的3D重建流程作为替代方案，这通常会引入不精确的尺寸并限制CAD工作流程所需的参数可编辑性。最近，一些研究人员采用视觉语言模型(VLMs)，特别是监督微调(SFT)来应对CAD相关的挑战。SFT显示出前景，但经常演变为模式记忆，在复杂的推理任务中产生较差的分布外性能。为了解决这些差距，我们引入了CReFT-CAD，这是一种两阶段微调范式，它首先采用课程驱动的强化学习阶段，通过难度感知的奖励来稳步构建推理能力，然后应用监督后微调来磨练指令遵循和语义提取。此外，我们发布了TriView2CAD，这是第一个大规模、开源的正交投影推理基准，包含200,000个合成和3,000个真实世界的正交投影，具有精确的尺寸标注和六种可互操作的数据模态。我们在正交投影推理方面对领先的VLM进行了基准测试，并证明CReFT-CAD显着提高了真实场景中的推理准确性和分布外泛化能力，为推进CAD推理研究提供了宝贵的见解。

🔬 方法详解

问题定义：现有方法，特别是基于3D重建的方案，在CAD正交投影推理中存在精度不足和参数编辑受限的问题。监督微调(SFT)虽然有所改进，但容易陷入模式记忆，导致在复杂和分布外的场景下表现不佳。因此，需要一种更鲁棒、泛化能力更强的正交投影推理方法。

核心思路：CReFT-CAD的核心思路是分阶段提升模型的推理能力。首先，通过强化学习，让模型逐步学习正交投影的推理规则，避免过早陷入模式记忆。然后，利用监督学习进行微调，提高模型对指令的理解和语义的提取能力。这种两阶段的方法旨在平衡模型的推理能力和指令遵循能力。

技术框架：CReFT-CAD包含两个主要阶段：1) 课程驱动的强化学习阶段：使用难度感知的奖励函数，引导模型逐步学习正交投影的推理规则。课程难度逐渐增加，从简单到复杂，避免模型一开始就面临过于困难的任务。2) 监督后微调阶段：使用标注数据对模型进行微调，提高模型对指令的理解和语义的提取能力。这个阶段主要关注指令遵循和语义对齐。

关键创新：CReFT-CAD的关键创新在于其两阶段的微调范式，特别是强化学习阶段的引入。传统的监督微调容易导致模型记住训练数据中的模式，而忽略了真正的推理能力。通过强化学习，模型可以主动探索不同的推理路径，从而学习到更通用的推理规则。此外，难度感知的奖励函数也是一个重要的创新点，它可以根据模型的表现动态调整学习难度，从而提高学习效率。

关键设计：在强化学习阶段，奖励函数的设计至关重要。论文采用难度感知的奖励函数，根据模型推理结果的正确性以及任务的难度来计算奖励。难度较高的任务，如果模型能够正确推理，则会获得更高的奖励。在监督微调阶段，采用了标准的交叉熵损失函数。具体的网络结构和参数设置在论文中可能有所描述，但摘要中未提及，因此未知。

🖼️ 关键图片

📊 实验亮点

CReFT-CAD在TriView2CAD基准测试中表现出色，显著提高了正交投影推理的准确性和泛化能力。在真实场景中，CReFT-CAD的性能优于其他领先的VLM模型，证明了其在复杂推理任务中的有效性。具体的性能提升数据在摘要中未给出，因此未知。

🎯 应用场景

CReFT-CAD在工业制造领域具有广泛的应用前景，可用于自动化CAD设计、智能制造和产品质量检测。该方法能够提高CAD系统的智能化水平，降低人工成本，并提升产品设计的效率和质量。未来，该技术有望应用于更复杂的CAD任务，例如参数化设计和优化。

📄 摘要（原文）

Computer-Aided Design (CAD) plays a pivotal role in industrial manufacturing. Orthographic projection reasoning underpins the entire CAD workflow, encompassing design, manufacturing, and simulation. However, prevailing deep-learning approaches employ standard 3D reconstruction pipelines as an alternative, which often introduce imprecise dimensions and limit the parametric editability required for CAD workflows. Recently, some researchers adopt vision-language models (VLMs), particularly supervised fine-tuning (SFT), to tackle CAD-related challenges. SFT shows promise but often devolves into pattern memorization, yielding poor out-of-distribution performance on complex reasoning tasks. To address these gaps, we introduce CReFT-CAD, a two-stage fine-tuning paradigm that first employs a curriculum-driven reinforcement learning stage with difficulty-aware rewards to build reasoning ability steadily, and then applies supervised post-tuning to hone instruction following and semantic extraction. Complementing this, we release TriView2CAD, the first large-scale, open-source benchmark for orthographic projection reasoning, comprising 200,000 synthetic and 3,000 real-world orthographic projections with precise dimension annotations and six interoperable data modalities. We benchmark leading VLMs on orthographic projection reasoning and demonstrate that CReFT-CAD substantially improves reasoning accuracy and out-of-distribution generalizability in real-world scenarios, offering valuable insights for advancing CAD reasoning research.

CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理