(How) Do Large Language Models Understand High-Level Message Sequence Charts?

📄 arXiv: 2605.13773v1 📥 PDF

作者: Mohammad Reza Mousavi

分类: cs.SE, cs.AI, cs.LO

发布日期: 2026-05-13


💡 一句话要点

评估大型语言模型对高层消息序列图语义的理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 消息序列图 形式语义 软件工程 模型理解

📋 核心要点

  1. 现有方法难以保证LLM在软件开发自动化任务中与架构设计规范语义的一致性。
  2. 通过设计129个语义任务,评估LLM对高层消息序列图(HMSC)语义的理解程度。
  3. 实验表明LLM对HMSC语义理解有限,尤其在抽象、组合和轨迹推理方面表现不佳。

📝 摘要(中文)

大型语言模型(LLMs)正被广泛应用于自动化软件开发生命周期中的各项任务。然而,这些任务的执行是否与所处理工件的语义保持一致尚不清楚。对于架构设计规范,这个问题尤其缺乏研究。本文针对高层消息序列图(HMSC)探讨了这个问题。HMSC是一种具有严格形式语义的可视化模型,已被用于各种目的,包括作为统一建模语言(UML)中序列图的基础。我们通过考察三个LLM(Gemini-3、GPT-5.4和Qwen-3.6)在129个语义任务上的表现,来检验LLM是否“理解”HMSC的语义,这些任务范围从查询HMSC中的基本语义结构(即事件及其排序)到语义保持的抽象和组合,以及计算轨迹集和轨迹等价的标记转换系统。结果表明,LLM对HMSC的形式语义的理解程度有限(总体准确率约为52%),并且不同语义概念之间的差异很大:虽然LLM似乎理解MSC的基本语义概念(准确率约为88%),但它们在涉及抽象和组合(准确率约为36%)以及轨迹和LTS(准确率约为42%)的任务中的语义推理方面表现不佳。特别是,所有三个LLM都在同区域和显式因果依赖关系的概念上表现不佳,并且从未在语义保持的转换中使用它们。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在多大程度上理解高层消息序列图(HMSC)的形式语义。现有方法缺乏对LLM在软件开发自动化任务中,特别是处理架构设计规范时,是否能保持与工件语义一致性的深入研究。现有方法未能充分评估LLM对HMSC这种具有严格形式语义的可视化模型的理解能力。

核心思路:论文的核心思路是通过设计一系列语义任务,系统性地测试LLM对HMSC各种语义概念的理解程度。这些任务涵盖了从基本的语义结构查询到更复杂的语义推理,例如语义保持的抽象、组合以及轨迹和标记转换系统的计算。通过分析LLM在这些任务上的表现,可以量化其对HMSC语义的理解水平。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择三个具有代表性的LLM:Gemini-3、GPT-5.4和Qwen-3.6;2) 设计129个语义任务,这些任务涵盖了HMSC的各种语义概念,包括事件、排序、抽象、组合、轨迹和标记转换系统;3) 使用选定的LLM完成这些任务,并记录其输出;4) 根据预定义的评估标准,评估LLM在每个任务上的准确率;5) 分析实验结果,总结LLM在不同语义概念上的优势和不足。

关键创新:该研究的关键创新在于其系统性的评估方法,通过设计一系列精心构建的语义任务,能够深入地考察LLM对HMSC形式语义的理解程度。此外,该研究还揭示了LLM在处理不同语义概念时存在的差异,例如在基本语义概念上表现较好,但在抽象、组合和轨迹推理方面表现较差。

关键设计:论文的关键设计包括:1) 任务设计:129个任务的设计覆盖了HMSC的各种语义方面,从基本概念到高级推理。任务难度逐步增加,以区分LLM的不同理解层次。2) 评估指标:使用准确率作为评估LLM性能的主要指标,能够量化LLM在每个任务上的表现。3) 模型选择:选择Gemini-3、GPT-5.4和Qwen-3.6作为代表性的LLM,能够反映当前LLM技术的水平。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM对HMSC的形式语义理解程度有限,总体准确率约为52%。LLM在基本语义概念上表现较好(准确率约为88%),但在抽象和组合(准确率约为36%)以及轨迹和LTS(准确率约为42%)的任务中表现不佳。所有三个LLM在同区域和显式因果依赖关系的概念上表现不佳,并且从未在语义保持的转换中使用它们。

🎯 应用场景

该研究成果可应用于软件工程领域,帮助开发者更好地利用LLM进行自动化任务,例如代码生成、模型验证和需求分析。通过了解LLM对架构设计规范的理解程度,可以指导LLM的训练和改进,提高其在软件开发中的应用效果,并降低因语义理解偏差而导致的错误风险。

📄 摘要(原文)

Large Language Models (LLMs) are being employed widely to automate tasks across the software development life-cycle. It is, however, unclear whether these tasks are performed consistently with respect to the semantics of the artefacts being handled. This question is particularly under-researched concerning architectural design specification. In this paper, we address this question for High-Level Message Sequence Charts (HMSCs). These are visual models with a rigorous formal semantics that have been used for various purposes, including as a foundation for Sequence Diagrams in the Unified Modelling Language (UML). We examine whether LLMs "understand" the semantics of HMSCs by examining three LLMs (Gemini-3, GPT-5.4, and Qwen-3.6) on how they perform 129 semantic tasks ranging from querying basic semantic constructs in HMSCs (i.e., events and their ordering) to semantic-preserving abstractions and compositions, and calculating the set of traces and trace-equivalent labelled transition systems. The results show that LLMs only have a modest understanding of the formal semantics of HMSCs (ca. 52% overall accuracy), with great variability across different semantic concepts: while LLMs seem to understand the basic semantic concepts of MSCs (ca. 88% accuracy), they struggle with semantic reasoning in tasks involving abstraction and composition (ca. 36% accuracy) and traces and LTSs (ca. 42% accuracy). In particular, all three LLMs struggle with the notions of co-region and explicit causal dependencies and never employed them in semantic-preserving transformations.