Agentic Large Language Models for Conceptual Systems Engineering and Design
作者: Soheyl Massoudi, Mark Fuge
分类: cs.AI
发布日期: 2025-07-11 (更新: 2025-11-02)
备注: 32 pages, 4 figures
💡 一句话要点
提出基于Agentic LLM的概念系统工程设计方法,提升设计细节粒度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic LLM 多智能体系统 概念系统工程 设计状态图 需求工程
📋 核心要点
- 现有LLM在早期工程设计中难以维持任务连续性,无法有效生成可执行模型,阻碍了设计迭代。
- 提出一种基于多智能体系统(MAS)的方法,利用设计状态图(DSG)迭代构建和改进设计,增强设计细节粒度。
- 实验表明,MAS在设计细节方面优于双智能体系统(2AS),但需求覆盖率和代码兼容性仍有待提高。
📝 摘要(中文)
早期工程设计涉及复杂的迭代推理,但现有的大语言模型(LLM)工作流程难以维持任务的连续性并生成可执行的模型。本文评估了结构化的多智能体系统(MAS)在需求提取、功能分解和模拟器代码生成方面是否比简单的双智能体系统(2AS)更有效。目标应用是需求规格书中描述的太阳能水过滤系统。引入了设计状态图(DSG),这是一种JSON可序列化的表示,将需求、物理实体和基于Python的物理模型捆绑到图节点中。一个九角色MAS迭代地构建和改进DSG,而2AS将该过程简化为生成器-反射器循环。两个系统总共运行了60个实验(2个LLM - Llama 3.3 70B vs 推理蒸馏DeepSeek R1 70B x 2个智能体配置 x 3个温度 x 5个种子)。报告了JSON有效性、需求覆盖率、实体存在性、代码兼容性、工作流程完成度、运行时间和图大小。在所有运行中,MAS和2AS都保持了完美的JSON完整性和实体标记。需求覆盖率仍然很低(低于20%)。在特定的2AS设置下,代码兼容性达到100%,但MAS的平均值低于50%。只有推理蒸馏模型可靠地标记了工作流程的完成。在DeepSeek R1 70B的支持下,MAS生成了更细粒度的DSG(平均5-6个节点),而2AS模式崩溃。结构化的多智能体编排增强了设计细节。推理蒸馏的LLM提高了完成率,但代码中的低需求和保真度差距仍然存在。
🔬 方法详解
问题定义:论文旨在解决早期工程设计中,现有大语言模型工作流程难以维持任务连续性、生成可执行模型的问题。现有方法在处理复杂、迭代的设计推理任务时,缺乏有效的结构化管理和知识表示,导致设计过程碎片化,难以保证设计质量和效率。
核心思路:论文的核心思路是利用多智能体系统(MAS)来模拟工程设计过程中的不同角色,通过智能体之间的协作和交互,实现需求的提取、功能的分解和模拟器代码的生成。这种结构化的方法旨在提高设计过程的连续性、可控性和可解释性。
技术框架:整体框架包括一个设计状态图(DSG)作为知识表示,以及一个多智能体系统(MAS)或双智能体系统(2AS)作为设计流程的执行者。DSG以JSON格式存储需求、物理实体和Python代码模型。MAS包含九个角色,每个角色负责特定的设计任务,通过迭代地构建和改进DSG来完成设计。2AS则简化为生成器-反射器循环。
关键创新:论文的关键创新在于将多智能体系统应用于概念系统工程设计,并引入了设计状态图(DSG)作为统一的知识表示。MAS通过模拟工程设计中的不同角色,实现了更细粒度的设计控制和更有效的知识管理。DSG则提供了一种结构化的方式来表示设计状态,方便智能体之间的信息共享和协作。
关键设计:实验中使用了Llama 3.3 70B和推理蒸馏的DeepSeek R1 70B两种LLM,并设置了不同的温度参数和随机种子。评估指标包括JSON有效性、需求覆盖率、实体存在性、代码兼容性、工作流程完成度、运行时间和图大小。MAS包含九个角色,具体角色分配和交互方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于DeepSeek R1 70B的MAS能够生成更细粒度的DSG(平均5-6个节点),而2AS则容易出现模式崩溃。在特定2AS设置下,代码兼容性可以达到100%,但MAS的平均代码兼容性较低。推理蒸馏的LLM能够更可靠地标记工作流程的完成。
🎯 应用场景
该研究成果可应用于各种工程设计领域,例如机械设计、电子设计、软件设计等。通过利用Agentic LLM,可以自动化设计流程,提高设计效率和质量,降低设计成本。未来,该方法有望应用于更复杂的系统设计,例如智能制造系统、智能交通系统等。
📄 摘要(原文)
Early-stage engineering design involves complex, iterative reasoning, yet existing large language model (LLM) workflows struggle to maintain task continuity and generate executable models. We evaluate whether a structured multi-agent system (MAS) can more effectively manage requirements extraction, functional decomposition, and simulator code generation than a simpler two-agent system (2AS). The target application is a solar-powered water filtration system as described in a cahier des charges. We introduce the Design-State Graph (DSG), a JSON-serializable representation that bundles requirements, physical embodiments, and Python-based physics models into graph nodes. A nine-role MAS iteratively builds and refines the DSG, while the 2AS collapses the process to a Generator-Reflector loop. Both systems run a total of 60 experiments (2 LLMs - Llama 3.3 70B vs reasoning-distilled DeepSeek R1 70B x 2 agent configurations x 3 temperatures x 5 seeds). We report a JSON validity, requirement coverage, embodiment presence, code compatibility, workflow completion, runtime, and graph size. Across all runs, both MAS and 2AS maintained perfect JSON integrity and embodiment tagging. Requirement coverage remained minimal (less than 20%). Code compatibility peaked at 100% under specific 2AS settings but averaged below 50% for MAS. Only the reasoning-distilled model reliably flagged workflow completion. Powered by DeepSeek R1 70B, the MAS generated more granular DSGs (average 5-6 nodes) whereas 2AS mode-collapsed. Structured multi-agent orchestration enhanced design detail. Reasoning-distilled LLM improved completion rates, yet low requirements and fidelity gaps in coding persisted.