TOOLCAD: Exploring Tool-Using Large Language Models in Text-to-CAD Generation with Reinforcement Learning

📄 arXiv: 2604.07960v1 📥 PDF

作者: Yifei Gong, Xing Wu, Wenda Liu, Kang Tu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-09


💡 一句话要点

ToolCAD:提出基于强化学习的工具型大语言模型用于文本到CAD生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到CAD生成 大型语言模型 强化学习 工具型智能体 计算机辅助设计

📋 核心要点

  1. 现有方法难以让LLM有效利用CAD引擎进行交互,阻碍了基于LLM的文本到CAD建模系统的发展。
  2. ToolCAD框架利用LLM作为工具型智能体,通过与CAD引擎交互完成文本到CAD的生成任务。
  3. 通过交互式CAD建模环境和端到端后训练策略,ToolCAD使开源LLM的性能可与专有模型媲美。

📝 摘要(中文)

计算机辅助设计(CAD)是一项依赖于长程推理和连贯建模动作的专家级任务。大型语言模型(LLM)在使语言智能体能够处理现实世界任务方面取得了显著进展。然而,目前还没有研究探讨工具型LLM如何以最佳方式与CAD引擎交互,这阻碍了基于LLM的智能体文本到CAD建模系统的出现。我们提出了ToolCAD,这是一种新颖的智能体CAD框架,它部署LLM作为工具型智能体,用于文本到CAD的生成。此外,我们引入了一个交互式CAD建模环境,用于展开与CAD引擎的推理和工具增强的交互轨迹,结合混合反馈和人工监督。同时,提出了一种端到端后训练策略,使LLM智能体能够引出精细的CAD建模思维链(CAD-CoT),并通过在线课程强化学习发展成为熟练的CAD工具型智能体。我们的研究结果表明,ToolCAD填补了在CAD工具型智能体中采用和训练开源LLM的空白,使其性能与专有模型相媲美,为更易于访问和更强大的自主文本到CAD建模系统铺平了道路。

🔬 方法详解

问题定义:论文旨在解决如何让大型语言模型(LLM)有效地利用CAD工具,从而实现从文本描述自动生成CAD模型的问题。现有的方法要么依赖于人工设计的规则,要么无法充分利用LLM的推理能力和CAD工具的精确性,导致生成CAD模型的质量和效率不高。

核心思路:论文的核心思路是将LLM作为一个智能体,通过与CAD引擎进行交互来完成建模任务。LLM负责理解文本描述,规划建模步骤,并调用CAD工具执行具体操作。通过强化学习,LLM可以学习到最优的工具使用策略,从而提高建模效率和质量。

技术框架:ToolCAD框架主要包含以下几个模块:1) LLM智能体:负责理解文本描述,生成CAD建模的思维链(CAD-CoT),并选择合适的CAD工具。2) CAD引擎:提供各种CAD工具,并执行LLM智能体的指令。3) 交互式CAD建模环境:模拟真实的CAD建模过程,并提供混合反馈(包括奖励和人工监督)。4) 强化学习模块:通过在线课程强化学习,优化LLM智能体的工具使用策略。

关键创新:论文的关键创新在于:1) 提出了CAD建模思维链(CAD-CoT)的概念,将复杂的建模任务分解为一系列可执行的步骤。2) 设计了交互式CAD建模环境,可以模拟真实的建模过程,并提供混合反馈。3) 采用了端到端的后训练策略,通过在线课程强化学习,使LLM智能体能够不断优化其工具使用策略。

关键设计:论文的关键设计包括:1) 奖励函数的设计:奖励函数综合考虑了建模的完成度、效率和精度。2) 课程学习策略:从简单到复杂,逐步增加建模任务的难度。3) 网络结构:采用了Transformer结构,以便更好地理解文本描述和生成CAD建模的思维链。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ToolCAD通过在线课程强化学习,使开源LLM在文本到CAD生成任务中表现出与专有模型相当的性能。实验结果表明,ToolCAD能够生成高质量的CAD模型,并显著提高建模效率。具体性能数据和对比基线在论文中有详细描述。

🎯 应用场景

ToolCAD具有广泛的应用前景,例如自动化产品设计、定制化零件制造、建筑设计等领域。它可以显著提高CAD建模的效率和质量,降低对专业CAD工程师的依赖,并促进创新设计。未来,ToolCAD有望成为智能制造和数字化设计的重要组成部分。

📄 摘要(原文)

Computer-Aided Design (CAD) is an expert-level task that relies on long-horizon reasoning and coherent modeling actions. Large Language Models (LLMs) have shown remarkable advancements in enabling language agents to tackle real-world tasks. Notably, there has been no investigation into how tool-using LLMs optimally interact with CAD engines, hindering the emergence of LLM-based agentic text-to-CAD modeling systems. We propose ToolCAD, a novel agentic CAD framework deploying LLMs as tool-using agents for text-to-CAD generation. Furthermore, we introduce an interactive CAD modeling gym to rollout reasoning and tool-augmented interaction trajectories with the CAD engine, incorporating hybrid feedback and human supervision. Meanwhile, an end-to-end post-training strategy is presented to enable the LLM agent to elicit refined CAD Modeling Chain of Thought (CAD-CoT) and evolve into proficient CAD tool-using agents via online curriculum reinforcement learning. Our findings demonstrate ToolCAD fills the gap in adopting and training open-source LLMs for CAD tool-using agents, enabling them to perform comparably to proprietary models, paving the way for more accessible and robust autonomous text-to-CAD modeling systems.