Large Language Model Agent for Structural Drawing Generation Using ReAct Prompt Engineering and Retrieval Augmented Generation

📄 arXiv: 2507.19771v1 📥 PDF

作者: Xin Zhang, Lissette Iturburu, Juan Nicolas Villamizar, Xiaoyu Liu, Manuel Salmeron, Shirley J. Dyke, Julio Ramirez

分类: cs.LG, cs.AI

发布日期: 2025-07-26


💡 一句话要点

提出基于LLM Agent的结构图生成方法,结合ReAct提示工程和RAG提升绘图质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 结构图生成 ReAct提示工程 检索增强生成 AutoCAD 自然语言处理 智能Agent

📋 核心要点

  1. 结构图生成任务耗时费力,现有软件能力仍无法满足工程师高效绘图的需求。
  2. 利用LLM Agent,结合ReAct提示工程和RAG技术,将自然语言描述转换为AutoCAD代码。
  3. 该方法能够显著减少手动绘图的工作量,简化工程师的设计迭代过程,提高绘图效率。

📝 摘要(中文)

本文提出了一种基于生成式AI的结构图生成新方法,该方法使用大型语言模型(LLM)Agent。该方法结合了检索增强生成(RAG)技术,利用外部知识来提高语言模型的准确性和可靠性。该方法能够理解各种自然语言描述,处理这些描述以提取必要的信息,并生成代码以在AutoCAD中生成所需的结构图。所开发、演示和评估的方法能够有效地将结构图的自然语言描述直接转换为AutoCAD图纸,与当前手动绘图生产相关的工作流程相比,显著减少了工作量,从而简化了工程师表达设计思想的典型迭代过程。

🔬 方法详解

问题定义:结构工程师生成结构图的过程非常耗时且容易出错。现有的CAD软件虽然功能强大,但仍然需要工程师手动绘制和标注,效率较低,难以满足快速迭代设计需求。将自然语言描述转化为精确的结构图是一个挑战,需要模型理解工程领域的专业知识和绘图规范。

核心思路:利用大型语言模型(LLM)作为智能Agent,通过ReAct(Reasoning and Acting)提示工程,使其具备推理和行动的能力。同时,结合检索增强生成(RAG)技术,从外部知识库中检索相关信息,增强LLM的知识储备,提高生成结构图的准确性和可靠性。

技术框架:该方法的核心是一个LLM Agent,它接收自然语言描述作为输入,首先进行推理(Reasoning),分析输入文本,提取关键信息,例如结构类型、尺寸、材料等。然后,根据提取的信息,Agent执行行动(Acting),包括从外部知识库检索相关信息,生成AutoCAD代码。最后,AutoCAD代码被执行,生成结构图。整个流程是一个迭代的过程,Agent可以根据生成结果进行调整和优化。

关键创新:该方法的核心创新在于将LLM Agent、ReAct提示工程和RAG技术结合起来,实现结构图的自动生成。ReAct提示工程使LLM具备了推理和行动的能力,能够更好地理解和处理自然语言描述。RAG技术增强了LLM的知识储备,提高了生成结构图的准确性和可靠性。与传统的手动绘图方法相比,该方法能够显著提高绘图效率,降低人工成本。

关键设计:ReAct提示工程的设计至关重要,需要精心设计提示词,引导LLM进行正确的推理和行动。RAG技术需要构建一个高质量的外部知识库,包含结构工程领域的专业知识和绘图规范。LLM的选择也很重要,需要选择具有较强语言理解和生成能力的LLM。此外,还需要设计合适的评估指标,评估生成结构图的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法能够将结构图的自然语言描述直接转换为AutoCAD图纸,显著减少了手动绘图的工作量。通过结合RAG技术,提高了生成结构图的准确性和可靠性。实验结果表明,该方法能够有效地简化工程师的设计迭代过程,提高绘图效率。

🎯 应用场景

该研究成果可应用于建筑、土木工程等领域,辅助工程师快速生成结构图,提高设计效率,减少人工成本。未来可扩展到其他工程图纸的自动生成,例如机械图、电气图等,具有广阔的应用前景。同时,该技术可以促进设计流程的自动化和智能化,推动工程领域的数字化转型。

📄 摘要(原文)

Structural drawings are widely used in many fields, e.g., mechanical engineering, civil engineering, etc. In civil engineering, structural drawings serve as the main communication tool between architects, engineers, and builders to avoid conflicts, act as legal documentation, and provide a reference for future maintenance or evaluation needs. They are often organized using key elements such as title/subtitle blocks, scales, plan views, elevation view, sections, and detailed sections, which are annotated with standardized symbols and line types for interpretation by engineers and contractors. Despite advances in software capabilities, the task of generating a structural drawing remains labor-intensive and time-consuming for structural engineers. Here we introduce a novel generative AI-based method for generating structural drawings employing a large language model (LLM) agent. The method incorporates a retrieval-augmented generation (RAG) technique using externally-sourced facts to enhance the accuracy and reliability of the language model. This method is capable of understanding varied natural language descriptions, processing these to extract necessary information, and generating code to produce the desired structural drawing in AutoCAD. The approach developed, demonstrated and evaluated herein enables the efficient and direct conversion of a structural drawing's natural language description into an AutoCAD drawing, significantly reducing the workload compared to current working process associated with manual drawing production, facilitating the typical iterative process of engineers for expressing design ideas in a simplified way.