CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning
作者: Ke Niu, Zhuofan Chen, Haiyang Yu, Yuwen Chen, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue
分类: cs.CV
发布日期: 2025-05-31 (更新: 2025-10-20)
💡 一句话要点
CReFT-CAD:通过强化微调提升CAD正交投影推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算机辅助设计 正交投影推理 视觉语言模型 强化学习 监督微调 CAD 三维重建 课程学习
📋 核心要点
- 现有深度学习方法在CAD领域采用3D重建替代正交投影推理,导致尺寸不精确和参数编辑受限。
- CReFT-CAD通过课程驱动的强化学习和监督后微调,提升VLM在CAD正交投影推理中的能力。
- TriView2CAD数据集包含20万合成和3千真实正交投影,实验证明CReFT-CAD显著提升推理精度和泛化性。
📝 摘要(中文)
计算机辅助设计(CAD)在工业制造中起着关键作用。正交投影推理是整个CAD工作流程的基础,涵盖设计、制造和仿真。然而,目前流行的深度学习方法采用标准的3D重建流程作为替代方案,这通常会引入不精确的尺寸并限制CAD工作流程所需的参数可编辑性。最近,一些研究人员采用视觉语言模型(VLMs),特别是监督微调(SFT)来应对CAD相关的挑战。SFT显示出前景,但经常演变为模式记忆,在复杂的推理任务中产生较差的分布外性能。为了解决这些差距,我们引入了CReFT-CAD,这是一种两阶段微调范式,它首先采用课程驱动的强化学习阶段,通过难度感知的奖励来稳步构建推理能力,然后应用监督后微调来磨练指令遵循和语义提取。此外,我们发布了TriView2CAD,这是第一个大规模、开源的正交投影推理基准,包含200,000个合成和3,000个真实世界的正交投影,具有精确的尺寸标注和六种可互操作的数据模态。我们在正交投影推理方面对领先的VLM进行了基准测试,并证明CReFT-CAD显着提高了真实场景中的推理准确性和分布外泛化能力,为推进CAD推理研究提供了宝贵的见解。
🔬 方法详解
问题定义:现有方法,特别是基于3D重建的方案,在CAD正交投影推理中存在精度不足和参数编辑受限的问题。监督微调(SFT)虽然有所改进,但容易陷入模式记忆,导致在复杂和分布外的场景下表现不佳。因此,需要一种更鲁棒、泛化能力更强的正交投影推理方法。
核心思路:CReFT-CAD的核心思路是分阶段提升模型的推理能力。首先,通过强化学习,让模型逐步学习正交投影的推理规则,避免过早陷入模式记忆。然后,利用监督学习进行微调,提高模型对指令的理解和语义的提取能力。这种两阶段的方法旨在平衡模型的推理能力和指令遵循能力。
技术框架:CReFT-CAD包含两个主要阶段:1) 课程驱动的强化学习阶段:使用难度感知的奖励函数,引导模型逐步学习正交投影的推理规则。课程难度逐渐增加,从简单到复杂,避免模型一开始就面临过于困难的任务。2) 监督后微调阶段:使用标注数据对模型进行微调,提高模型对指令的理解和语义的提取能力。这个阶段主要关注指令遵循和语义对齐。
关键创新:CReFT-CAD的关键创新在于其两阶段的微调范式,特别是强化学习阶段的引入。传统的监督微调容易导致模型记住训练数据中的模式,而忽略了真正的推理能力。通过强化学习,模型可以主动探索不同的推理路径,从而学习到更通用的推理规则。此外,难度感知的奖励函数也是一个重要的创新点,它可以根据模型的表现动态调整学习难度,从而提高学习效率。
关键设计:在强化学习阶段,奖励函数的设计至关重要。论文采用难度感知的奖励函数,根据模型推理结果的正确性以及任务的难度来计算奖励。难度较高的任务,如果模型能够正确推理,则会获得更高的奖励。在监督微调阶段,采用了标准的交叉熵损失函数。具体的网络结构和参数设置在论文中可能有所描述,但摘要中未提及,因此未知。
🖼️ 关键图片
📊 实验亮点
CReFT-CAD在TriView2CAD基准测试中表现出色,显著提高了正交投影推理的准确性和泛化能力。在真实场景中,CReFT-CAD的性能优于其他领先的VLM模型,证明了其在复杂推理任务中的有效性。具体的性能提升数据在摘要中未给出,因此未知。
🎯 应用场景
CReFT-CAD在工业制造领域具有广泛的应用前景,可用于自动化CAD设计、智能制造和产品质量检测。该方法能够提高CAD系统的智能化水平,降低人工成本,并提升产品设计的效率和质量。未来,该技术有望应用于更复杂的CAD任务,例如参数化设计和优化。
📄 摘要(原文)
Computer-Aided Design (CAD) plays a pivotal role in industrial manufacturing. Orthographic projection reasoning underpins the entire CAD workflow, encompassing design, manufacturing, and simulation. However, prevailing deep-learning approaches employ standard 3D reconstruction pipelines as an alternative, which often introduce imprecise dimensions and limit the parametric editability required for CAD workflows. Recently, some researchers adopt vision-language models (VLMs), particularly supervised fine-tuning (SFT), to tackle CAD-related challenges. SFT shows promise but often devolves into pattern memorization, yielding poor out-of-distribution performance on complex reasoning tasks. To address these gaps, we introduce CReFT-CAD, a two-stage fine-tuning paradigm that first employs a curriculum-driven reinforcement learning stage with difficulty-aware rewards to build reasoning ability steadily, and then applies supervised post-tuning to hone instruction following and semantic extraction. Complementing this, we release TriView2CAD, the first large-scale, open-source benchmark for orthographic projection reasoning, comprising 200,000 synthetic and 3,000 real-world orthographic projections with precise dimension annotations and six interoperable data modalities. We benchmark leading VLMs on orthographic projection reasoning and demonstrate that CReFT-CAD substantially improves reasoning accuracy and out-of-distribution generalizability in real-world scenarios, offering valuable insights for advancing CAD reasoning research.