TOOLCAD: Exploring Tool-Using Large Language Models in Text-to-CAD Generation with Reinforcement Learning

作者: Yifei Gong, Xing Wu, Wenda Liu, Kang Tu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-09

💡 一句话要点

ToolCAD：提出基于强化学习的工具型大语言模型用于文本到CAD生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到CAD生成 大型语言模型 强化学习 工具型智能体 计算机辅助设计

📋 核心要点

现有方法难以让LLM有效利用CAD引擎进行交互，阻碍了基于LLM的文本到CAD建模系统的发展。
ToolCAD框架利用LLM作为工具型智能体，通过与CAD引擎交互完成文本到CAD的生成任务。
通过交互式CAD建模环境和端到端后训练策略，ToolCAD使开源LLM的性能可与专有模型媲美。

📝 摘要（中文）

计算机辅助设计(CAD)是一项依赖于长程推理和连贯建模动作的专家级任务。大型语言模型(LLM)在使语言智能体能够处理现实世界任务方面取得了显著进展。然而，目前还没有研究探讨工具型LLM如何以最佳方式与CAD引擎交互，这阻碍了基于LLM的智能体文本到CAD建模系统的出现。我们提出了ToolCAD，这是一种新颖的智能体CAD框架，它部署LLM作为工具型智能体，用于文本到CAD的生成。此外，我们引入了一个交互式CAD建模环境，用于展开与CAD引擎的推理和工具增强的交互轨迹，结合混合反馈和人工监督。同时，提出了一种端到端后训练策略，使LLM智能体能够引出精细的CAD建模思维链(CAD-CoT)，并通过在线课程强化学习发展成为熟练的CAD工具型智能体。我们的研究结果表明，ToolCAD填补了在CAD工具型智能体中采用和训练开源LLM的空白，使其性能与专有模型相媲美，为更易于访问和更强大的自主文本到CAD建模系统铺平了道路。

🔬 方法详解

问题定义：论文旨在解决如何让大型语言模型（LLM）有效地利用CAD工具，从而实现从文本描述自动生成CAD模型的问题。现有的方法要么依赖于人工设计的规则，要么无法充分利用LLM的推理能力和CAD工具的精确性，导致生成CAD模型的质量和效率不高。

核心思路：论文的核心思路是将LLM作为一个智能体，通过与CAD引擎进行交互来完成建模任务。LLM负责理解文本描述，规划建模步骤，并调用CAD工具执行具体操作。通过强化学习，LLM可以学习到最优的工具使用策略，从而提高建模效率和质量。

技术框架：ToolCAD框架主要包含以下几个模块：1) LLM智能体：负责理解文本描述，生成CAD建模的思维链（CAD-CoT），并选择合适的CAD工具。2) CAD引擎：提供各种CAD工具，并执行LLM智能体的指令。3) 交互式CAD建模环境：模拟真实的CAD建模过程，并提供混合反馈（包括奖励和人工监督）。4) 强化学习模块：通过在线课程强化学习，优化LLM智能体的工具使用策略。

关键创新：论文的关键创新在于：1) 提出了CAD建模思维链（CAD-CoT）的概念，将复杂的建模任务分解为一系列可执行的步骤。2) 设计了交互式CAD建模环境，可以模拟真实的建模过程，并提供混合反馈。3) 采用了端到端的后训练策略，通过在线课程强化学习，使LLM智能体能够不断优化其工具使用策略。

关键设计：论文的关键设计包括：1) 奖励函数的设计：奖励函数综合考虑了建模的完成度、效率和精度。2) 课程学习策略：从简单到复杂，逐步增加建模任务的难度。3) 网络结构：采用了Transformer结构，以便更好地理解文本描述和生成CAD建模的思维链。

🖼️ 关键图片

📊 实验亮点

ToolCAD通过在线课程强化学习，使开源LLM在文本到CAD生成任务中表现出与专有模型相当的性能。实验结果表明，ToolCAD能够生成高质量的CAD模型，并显著提高建模效率。具体性能数据和对比基线在论文中有详细描述。

🎯 应用场景

ToolCAD具有广泛的应用前景，例如自动化产品设计、定制化零件制造、建筑设计等领域。它可以显著提高CAD建模的效率和质量，降低对专业CAD工程师的依赖，并促进创新设计。未来，ToolCAD有望成为智能制造和数字化设计的重要组成部分。

📄 摘要（原文）

Computer-Aided Design (CAD) is an expert-level task that relies on long-horizon reasoning and coherent modeling actions. Large Language Models (LLMs) have shown remarkable advancements in enabling language agents to tackle real-world tasks. Notably, there has been no investigation into how tool-using LLMs optimally interact with CAD engines, hindering the emergence of LLM-based agentic text-to-CAD modeling systems. We propose ToolCAD, a novel agentic CAD framework deploying LLMs as tool-using agents for text-to-CAD generation. Furthermore, we introduce an interactive CAD modeling gym to rollout reasoning and tool-augmented interaction trajectories with the CAD engine, incorporating hybrid feedback and human supervision. Meanwhile, an end-to-end post-training strategy is presented to enable the LLM agent to elicit refined CAD Modeling Chain of Thought (CAD-CoT) and evolve into proficient CAD tool-using agents via online curriculum reinforcement learning. Our findings demonstrate ToolCAD fills the gap in adopting and training open-source LLMs for CAD tool-using agents, enabling them to perform comparably to proprietary models, paving the way for more accessible and robust autonomous text-to-CAD modeling systems.

TOOLCAD: Exploring Tool-Using Large Language Models in Text-to-CAD Generation with Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理