CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing

📄 arXiv: 2502.03997v2 📥 PDF

作者: Yu Yuan, Shizhao Sun, Qi Liu, Jiang Bian

分类: cs.CV

发布日期: 2025-02-06 (更新: 2025-07-03)

🔗 代码/项目: GITHUB


💡 一句话要点

提出CAD-Editor框架,通过自动数据合成和locate-then-infill策略实现文本驱动的CAD模型编辑。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAD编辑 文本驱动 locate-then-infill 自动数据合成 大型语言模型 视觉语言模型 CAD模型 人机协作

📋 核心要点

  1. 现有方法主要集中于设计变异生成或文本驱动的CAD生成,缺乏对文本控制的支持或忽略了现有CAD模型作为约束。
  2. CAD-Editor框架采用locate-then-infill策略,先定位需要修改的区域,再用适当的编辑填充,分解了复杂任务。
  3. 通过自动数据合成流程生成训练数据,利用设计变异模型和大型视觉语言模型,有效解决了数据匮乏问题。

📝 摘要(中文)

本文提出CAD-Editor,首个用于文本驱动CAD模型编辑的框架。为解决训练所需精确对应三元组数据的难题,设计了自动数据合成流程,利用设计变异模型生成原始和编辑后的CAD模型对,并使用大型视觉语言模型(LVLMs)将差异总结为编辑指令。针对文本驱动CAD编辑的复合特性,提出了locate-then-infill框架,将任务分解为定位需要修改的区域和使用适当的编辑填充这些区域两个子任务。大型语言模型(LLMs)作为两个子任务的骨干,利用其在自然语言理解和CAD知识方面的能力。实验结果表明,CAD-Editor在定量和定性方面均取得了优异的性能。

🔬 方法详解

问题定义:现有文本驱动的CAD模型编辑方法要么不支持文本控制,要么忽略了已有的CAD模型作为约束条件。因此,需要一种能够根据文本指令精确修改现有CAD模型的框架,同时解决训练数据不足的问题。

核心思路:CAD-Editor的核心思路是将文本驱动的CAD编辑任务分解为两个子任务:首先,定位CAD模型中需要修改的区域(locate);然后,使用适当的编辑操作填充这些区域(infill)。这种“先定位,后填充”的策略能够更有效地处理复杂的编辑指令。同时,利用自动数据合成流程生成大量的训练数据,缓解数据匮乏问题。

技术框架:CAD-Editor框架主要包含两个阶段:数据合成阶段和编辑阶段。在数据合成阶段,首先利用设计变异模型生成原始CAD模型和编辑后的CAD模型对,然后使用大型视觉语言模型(LVLMs)将两个模型之间的差异总结为编辑指令,从而构建训练数据集。在编辑阶段,框架采用locate-then-infill策略,首先使用大型语言模型(LLMs)定位需要修改的区域,然后使用另一个LLM根据编辑指令和定位结果,生成相应的编辑操作,并应用于CAD模型。

关键创新:CAD-Editor的关键创新在于以下两点:一是提出了locate-then-infill框架,将复杂的编辑任务分解为两个更易于处理的子任务;二是设计了自动数据合成流程,有效解决了训练数据不足的问题。与现有方法相比,CAD-Editor能够更好地理解文本指令,并生成更精确的CAD模型编辑结果。

关键设计:在数据合成阶段,设计变异模型的选择和LVLM的prompt设计至关重要,需要保证生成的数据具有多样性和高质量。在编辑阶段,LLM的选择和训练策略,以及locate和infill两个子任务之间的信息传递方式,都会影响最终的编辑效果。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CAD-Editor在文本驱动的CAD模型编辑任务中取得了优异的性能。具体的数据和对比基线在论文中给出,但此处未提供详细数值。定性结果也表明,CAD-Editor能够生成符合文本指令的精确CAD模型编辑结果。

🎯 应用场景

CAD-Editor具有广泛的应用前景,可用于自动化产品设计、建筑设计、机械设计等领域。通过自然语言指令,用户可以方便快捷地修改CAD模型,提高设计效率,降低设计成本。该研究还有助于推动人机协作设计的发展,使CAD设计更加智能化和人性化。

📄 摘要(原文)

Computer Aided Design (CAD) is indispensable across various industries. \emph{Text-based CAD editing}, which automates the modification of CAD models based on textual instructions, holds great potential but remains underexplored. Existing methods primarily focus on design variation generation or text-based CAD generation, either lacking support for text-based control or neglecting existing CAD models as constraints. We introduce \emph{CAD-Editor}, the first framework for text-based CAD editing. To address the challenge of demanding triplet data with accurate correspondence for training, we propose an automated data synthesis pipeline. This pipeline utilizes design variation models to generate pairs of original and edited CAD models and employs Large Vision-Language Models (LVLMs) to summarize their differences into editing instructions. To tackle the composite nature of text-based CAD editing, we propose a locate-then-infill framework that decomposes the task into two focused sub-tasks: locating regions requiring modification and infilling these regions with appropriate edits. Large Language Models (LLMs) serve as the backbone for both sub-tasks, leveraging their capabilities in natural language understanding and CAD knowledge. Experiments show that CAD-Editor achieves superior performance both quantitatively and qualitatively. The code is available at \url {https://github.com/microsoft/CAD-Editor}.