Clarify Before You Draw: Proactive Agents for Robust Text-to-CAD Generation
作者: Bo Yuan, Zelin Zhao, Petr Molodyk, Bin Hu, Yongxin Chen
分类: cs.LG
发布日期: 2026-02-03
备注: In Review
💡 一句话要点
ProCAD:通过主动澄清提升文本到CAD生成的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到CAD生成 主动澄清 自然语言处理 参数化建模 CadQuery
📋 核心要点
- 现有文本到CAD系统在处理几何描述不明确或自相矛盾的文本提示时,容易产生错误或不一致的结果。
- ProCAD框架通过引入一个主动澄清代理,在代码生成前识别并解决规范中的问题,从而提高系统的鲁棒性。
- 实验结果表明,ProCAD显著优于现有模型,在降低Chamfer距离和无效率方面取得了显著提升。
📝 摘要(中文)
本文提出了一种用于文本到CAD程序(如CadQuery)生成的主动代理框架ProCAD,旨在解决几何描述不完整或内部不一致的问题。现有模型在文本模糊时倾向于被动地遵循用户指令并虚构尺寸。ProCAD框架包含一个主动澄清代理,该代理审核提示并在必要时提出有针对性的澄清问题,以生成自洽的规范;以及一个CAD编码代理,将规范转换为可执行的CadQuery程序。编码代理在一个高质量的文本到CadQuery数据集上进行微调,澄清代理通过在澄清轨迹上进行agentic SFT训练。实验表明,主动澄清显著提高了对模糊提示的鲁棒性,同时保持了较低的交互开销。ProCAD优于包括Claude Sonnet 4.5在内的前沿闭源模型,平均Chamfer距离降低了79.9%,无效率从4.8%降低到0.9%。代码和数据集将公开。
🔬 方法详解
问题定义:论文旨在解决文本到CAD生成任务中,由于自然语言描述的模糊性或不一致性导致的CAD模型生成错误问题。现有方法通常直接将文本转换为CAD程序,缺乏对文本描述的有效验证和修正,容易产生不符合要求的模型。
核心思路:论文的核心思路是在代码生成之前,引入一个主动澄清的代理,该代理能够识别文本描述中的潜在问题,并通过提问的方式与用户进行交互,获取更明确的信息,从而生成更准确的CAD模型。这种主动交互的方式可以有效避免模型在信息不足的情况下进行猜测,提高生成结果的可靠性。
技术框架:ProCAD框架包含两个主要模块:主动澄清代理和CAD编码代理。首先,主动澄清代理接收用户输入的文本提示,并对其进行分析,判断是否存在模糊或不一致之处。如果存在问题,代理会生成针对性的问题,向用户请求更详细的信息。用户回答问题后,澄清代理将更新文本描述,并再次进行分析,直到文本描述足够清晰和完整。然后,CAD编码代理将经过澄清的文本描述转换为可执行的CadQuery程序,生成最终的CAD模型。
关键创新:论文的关键创新在于引入了主动澄清机制,将文本到CAD生成过程分解为澄清和编码两个阶段。这种分解使得系统能够更好地处理模糊和不一致的文本描述,提高了生成结果的鲁棒性。此外,论文还提出了agentic SFT方法来训练澄清代理,使其能够有效地识别问题并生成有针对性的问题。
关键设计:澄清代理使用agentic SFT进行训练,目标是学习生成能够有效澄清文本描述的问题。CAD编码代理在一个高质量的文本到CadQuery数据集上进行微调,以提高代码生成的准确性。具体的参数设置和网络结构在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
ProCAD在文本到CAD生成任务中取得了显著的性能提升。实验结果表明,ProCAD优于包括Claude Sonnet 4.5在内的前沿闭源模型,平均Chamfer距离降低了79.9%,无效率从4.8%降低到0.9%。这些数据表明,主动澄清机制能够有效地提高文本到CAD生成系统的鲁棒性和准确性。
🎯 应用场景
该研究成果可应用于自动化CAD模型设计、智能制造、建筑设计等领域。通过ProCAD,用户可以使用自然语言更方便地创建CAD模型,降低了CAD设计的门槛,提高了设计效率。未来,该技术有望与虚拟现实、增强现实等技术结合,实现更加直观和便捷的CAD设计体验。
📄 摘要(原文)
Large language models have recently enabled text-to-CAD systems that synthesize parametric CAD programs (e.g., CadQuery) from natural language prompts. In practice, however, geometric descriptions can be under-specified or internally inconsistent: critical dimensions may be missing and constraints may conflict. Existing fine-tuned models tend to reactively follow user instructions and hallucinate dimensions when the text is ambiguous. To address this, we propose a proactive agentic framework for text-to-CadQuery generation, named ProCAD, that resolves specification issues before code synthesis. Our framework pairs a proactive clarifying agent, which audits the prompt and asks targeted clarification questions only when necessary to produce a self-consistent specification, with a CAD coding agent that translates the specification into an executable CadQuery program. We fine-tune the coding agent on a curated high-quality text-to-CadQuery dataset and train the clarifying agent via agentic SFT on clarification trajectories. Experiments show that proactive clarification significantly improves robustness to ambiguous prompts while keeping interaction overhead low. ProCAD outperforms frontier closed-source models, including Claude Sonnet 4.5, reducing the mean Chamfer distance by 79.9 percent and lowering the invalidity ratio from 4.8 percent to 0.9 percent. Our code and datasets will be made publicly available.