(How) Do Large Language Models Understand High-Level Message Sequence Charts?

作者: Mohammad Reza Mousavi

分类: cs.SE, cs.AI, cs.LO

发布日期: 2026-05-13

💡 一句话要点

评估大型语言模型对高层消息序列图语义的理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 消息序列图 形式语义 软件工程 模型理解

📋 核心要点

现有方法难以保证LLM在软件开发自动化任务中与架构设计规范语义的一致性。
通过设计129个语义任务，评估LLM对高层消息序列图（HMSC）语义的理解程度。
实验表明LLM对HMSC语义理解有限，尤其在抽象、组合和轨迹推理方面表现不佳。

📝 摘要（中文）

大型语言模型（LLMs）正被广泛应用于自动化软件开发生命周期中的各项任务。然而，这些任务的执行是否与所处理工件的语义保持一致尚不清楚。对于架构设计规范，这个问题尤其缺乏研究。本文针对高层消息序列图（HMSC）探讨了这个问题。HMSC是一种具有严格形式语义的可视化模型，已被用于各种目的，包括作为统一建模语言（UML）中序列图的基础。我们通过考察三个LLM（Gemini-3、GPT-5.4和Qwen-3.6）在129个语义任务上的表现，来检验LLM是否“理解”HMSC的语义，这些任务范围从查询HMSC中的基本语义结构（即事件及其排序）到语义保持的抽象和组合，以及计算轨迹集和轨迹等价的标记转换系统。结果表明，LLM对HMSC的形式语义的理解程度有限（总体准确率约为52%），并且不同语义概念之间的差异很大：虽然LLM似乎理解MSC的基本语义概念（准确率约为88%），但它们在涉及抽象和组合（准确率约为36%）以及轨迹和LTS（准确率约为42%）的任务中的语义推理方面表现不佳。特别是，所有三个LLM都在同区域和显式因果依赖关系的概念上表现不佳，并且从未在语义保持的转换中使用它们。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在多大程度上理解高层消息序列图（HMSC）的形式语义。现有方法缺乏对LLM在软件开发自动化任务中，特别是处理架构设计规范时，是否能保持与工件语义一致性的深入研究。现有方法未能充分评估LLM对HMSC这种具有严格形式语义的可视化模型的理解能力。

核心思路：论文的核心思路是通过设计一系列语义任务，系统性地测试LLM对HMSC各种语义概念的理解程度。这些任务涵盖了从基本的语义结构查询到更复杂的语义推理，例如语义保持的抽象、组合以及轨迹和标记转换系统的计算。通过分析LLM在这些任务上的表现，可以量化其对HMSC语义的理解水平。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择三个具有代表性的LLM：Gemini-3、GPT-5.4和Qwen-3.6；2) 设计129个语义任务，这些任务涵盖了HMSC的各种语义概念，包括事件、排序、抽象、组合、轨迹和标记转换系统；3) 使用选定的LLM完成这些任务，并记录其输出；4) 根据预定义的评估标准，评估LLM在每个任务上的准确率；5) 分析实验结果，总结LLM在不同语义概念上的优势和不足。

关键创新：该研究的关键创新在于其系统性的评估方法，通过设计一系列精心构建的语义任务，能够深入地考察LLM对HMSC形式语义的理解程度。此外，该研究还揭示了LLM在处理不同语义概念时存在的差异，例如在基本语义概念上表现较好，但在抽象、组合和轨迹推理方面表现较差。

关键设计：论文的关键设计包括：1) 任务设计：129个任务的设计覆盖了HMSC的各种语义方面，从基本概念到高级推理。任务难度逐步增加，以区分LLM的不同理解层次。2) 评估指标：使用准确率作为评估LLM性能的主要指标，能够量化LLM在每个任务上的表现。3) 模型选择：选择Gemini-3、GPT-5.4和Qwen-3.6作为代表性的LLM，能够反映当前LLM技术的水平。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM对HMSC的形式语义理解程度有限，总体准确率约为52%。LLM在基本语义概念上表现较好（准确率约为88%），但在抽象和组合（准确率约为36%）以及轨迹和LTS（准确率约为42%）的任务中表现不佳。所有三个LLM在同区域和显式因果依赖关系的概念上表现不佳，并且从未在语义保持的转换中使用它们。

🎯 应用场景

该研究成果可应用于软件工程领域，帮助开发者更好地利用LLM进行自动化任务，例如代码生成、模型验证和需求分析。通过了解LLM对架构设计规范的理解程度，可以指导LLM的训练和改进，提高其在软件开发中的应用效果，并降低因语义理解偏差而导致的错误风险。

📄 摘要（原文）

Large Language Models (LLMs) are being employed widely to automate tasks across the software development life-cycle. It is, however, unclear whether these tasks are performed consistently with respect to the semantics of the artefacts being handled. This question is particularly under-researched concerning architectural design specification. In this paper, we address this question for High-Level Message Sequence Charts (HMSCs). These are visual models with a rigorous formal semantics that have been used for various purposes, including as a foundation for Sequence Diagrams in the Unified Modelling Language (UML). We examine whether LLMs "understand" the semantics of HMSCs by examining three LLMs (Gemini-3, GPT-5.4, and Qwen-3.6) on how they perform 129 semantic tasks ranging from querying basic semantic constructs in HMSCs (i.e., events and their ordering) to semantic-preserving abstractions and compositions, and calculating the set of traces and trace-equivalent labelled transition systems. The results show that LLMs only have a modest understanding of the formal semantics of HMSCs (ca. 52% overall accuracy), with great variability across different semantic concepts: while LLMs seem to understand the basic semantic concepts of MSCs (ca. 88% accuracy), they struggle with semantic reasoning in tasks involving abstraction and composition (ca. 36% accuracy) and traces and LTSs (ca. 42% accuracy). In particular, all three LLMs struggle with the notions of co-region and explicit causal dependencies and never employed them in semantic-preserving transformations.

(How) Do Large Language Models Understand High-Level Message Sequence Charts?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理