Text to model via SysML: Automated generation of dynamical system computational models from unstructured natural language text via enhanced System Modeling Language diagrams

📄 arXiv: 2507.06803v2 📥 PDF

作者: Matthew Anderson Hendricks, Alice Cicirello

分类: cs.CL, cs.AI, cs.CE

发布日期: 2025-07-09 (更新: 2025-07-15)

备注: v2 - typos and imprecisions corrected


💡 一句话要点

提出一种基于SysML的文本到模型自动生成方法,加速工程动力系统设计与部署。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到模型 SysML 动力系统建模 自然语言处理 大型语言模型

📋 核心要点

  1. 现有方法在将非结构化文本转换为动力系统计算模型时效率较低,依赖人工干预。
  2. 该方法利用SysML图作为中间表示,结合NLP和LLM技术,从文本中自动提取系统信息并生成模型。
  3. 通过简单摆的案例研究表明,该方法在性能上优于直接使用LLM生成模型的方法。

📝 摘要(中文)

本文提出了一种策略,旨在通过利用领域和专家知识,从与目标动力系统相关的文档语料库和描述特定系统的输入文档出发,自动生成动力系统计算模型,从而加速工程动力系统的设计和部署。该策略分五个步骤实现,关键在于使用系统建模语言(SysML)图来提取关于组件的依赖关系、属性和操作的准确信息。自然语言处理(NLP)策略和大型语言模型(LLM)被用于改进SysML图自动生成的中间输出,例如:关键名词列表;提取的关系列表;关键短语和关键关系列表;块属性值;块关系;以及BDD图生成。通过不同的案例研究说明了自动SysML图生成的适用性。然后,通过代码生成和计算模型生成步骤,从SysML图获得复杂动力系统的计算模型。在代码生成步骤中,NLP策略用于摘要,而LLM仅用于验证。所提出的方法不限于特定的系统、领域或计算软件。通过一个从文本到简单摆模型的端到端示例展示了所提出方法的适用性,与仅由LLM产生的结果相比,性能有所提高。

🔬 方法详解

问题定义:论文旨在解决从非结构化自然语言文本自动生成动力系统计算模型的问题。现有方法通常需要大量的人工干预,且难以有效地利用领域知识和专家经验,导致设计和部署过程耗时且容易出错。

核心思路:论文的核心思路是利用系统建模语言(SysML)图作为中间表示,将非结构化文本转换为结构化的系统模型。SysML图能够清晰地表达系统组件之间的依赖关系、属性和操作,从而为后续的计算模型生成提供准确的信息。结合自然语言处理(NLP)和大型语言模型(LLM)技术,可以自动化SysML图的生成过程,减少人工干预。

技术框架:该方法包含五个主要步骤:1) 从文档中提取关键名词列表;2) 提取实体关系;3) 提取关键短语和关系;4) 确定块属性值和块关系;5) 生成SysML图(包括块定义图和行为图)。然后,通过代码生成和计算模型生成步骤,从SysML图获得最终的计算模型。在代码生成阶段,使用NLP进行摘要,LLM用于验证。

关键创新:该方法的核心创新在于将SysML图作为桥梁,连接非结构化文本和计算模型。通过自动化SysML图的生成,可以有效地提取和表示系统信息,并减少人工干预。此外,该方法结合了NLP和LLM技术,提高了信息提取的准确性和效率。

关键设计:在SysML图生成过程中,使用了NLP技术进行实体识别、关系抽取和关键词提取。LLM被用于验证和纠正NLP的输出结果,以提高准确性。代码生成阶段使用NLP进行摘要,LLM用于验证生成的代码是否符合预期。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文通过一个简单摆的案例研究展示了该方法的有效性。实验结果表明,与直接使用LLM生成模型相比,该方法能够生成更准确和可靠的计算模型,验证了SysML图作为中间表示的优势。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于各种工程领域,例如航空航天、汽车、机器人等,用于快速设计和部署动力系统。通过自动化建模过程,可以显著缩短开发周期,降低成本,并提高系统设计的质量和可靠性。该方法还可用于知识管理,将领域知识以结构化的形式存储和利用。

📄 摘要(原文)

This paper contributes to speeding up the design and deployment of engineering dynamical systems by proposing a strategy for exploiting domain and expert knowledge for the automated generation of dynamical system computational model starting from a corpus of document relevant to the dynamical system of interest and an input document describing the specific system. This strategy is implemented in five steps and, crucially, it uses system modeling language diagrams (SysML) to extract accurate information about the dependencies, attributes, and operations of components. Natural Language Processing (NLP) strategies and Large Language Models (LLMs) are employed in specific tasks to improve intermediate outputs of the SySML diagrams automated generation, such as: list of key nouns; list of extracted relationships; list of key phrases and key relationships; block attribute values; block relationships; and BDD diagram generation. The applicability of automated SysML diagram generation is illustrated with different case studies. The computational models of complex dynamical systems from SysML diagrams are then obtained via code generation and computational model generation steps. In the code generation step, NLP strategies are used for summarization, while LLMs are used for validation only. The proposed approach is not limited to a specific system, domain, or computational software. The applicability of the proposed approach is shown via an end-to-end example from text to model of a simple pendulum, showing improved performance compared to results yielded by LLMs only.