Leveraging LLMs for Grammar Adaptation: A Study on Metamodel-Grammar Co-Evolution

📄 arXiv: 2605.21465v1 📥 PDF

作者: Weixing Zhang, Bowen Jiang, Rahul Sharma, Regina Hebig, Daniel Strüber

分类: cs.CL, cs.SE

发布日期: 2026-05-20


💡 一句话要点

提出基于LLM的语法适配方法,解决元模型演化后语法维护的难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语法适配 元模型演化 模型驱动工程 领域特定语言

📋 核心要点

  1. 元模型演化导致语法适配需求,传统方法依赖手动或规则,效率低且难以应对复杂场景。
  2. 利用LLM学习历史语法适配经验,自动将适配应用于新语法,无需人工干预。
  3. 实验表明,LLM在小规模DSL上适配一致性达100%,优于规则方法,但在大规模语法上性能下降。

📝 摘要(中文)

在模型驱动工程中,元模型演化需要相应地调整语法以保持一致性,这通常需要繁琐的手工工作。现有的基于规则的方法可以实现部分自动化,但在处理复杂的语法场景时存在局限性。本文提出了一种基于大型语言模型(LLM)的方法,该方法通过学习先前版本的语法适配,在演化后自动将适配应用于新语法。我们在六个真实的Xtext领域特定语言上评估了这种方法,使用四个DSL作为训练集来开发提示策略,两个DSL作为测试集进行验证,并对QVTo进行了纵向案例研究。评估使用了三个大型语言模型(Claude Sonnet 4.5、ChatGPT 5.1、Gemini 3),并从三个维度衡量了语法适配质量:语法规则级别的适配一致性、输出相似性和元模型一致性。结果表明,在测试集上,所有三个LLM都实现了100%的适配一致性和输出相似性,而基于规则的方法在DOT上仅达到84.21%,在Xcore上仅达到62.50%。在QVTo纵向研究中,基于LLM的方法成功地在所有三个演化步骤中重用了学习到的适配,而无需手动编辑语法,而基于规则的方法需要在三个转换中的两个中进行手动调整。然而,在大型语法(EAST-ADL,297条规则)上,LLM的适配一致性远低于90%。这项研究证明了基于LLM的方法在处理复杂语法场景方面的优势,同时也揭示了它们在大型语法适配方面的局限性。

🔬 方法详解

问题定义:论文旨在解决模型驱动工程中,元模型演化后,如何自动且高效地适配相应的语法,以保持一致性的问题。现有方法,特别是基于规则的方法,在处理复杂语法场景时,面临着规则编写困难、覆盖范围有限以及需要大量人工干预等痛点。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的学习和泛化能力,将语法适配问题转化为一个序列到序列的学习任务。通过学习历史版本之间的语法适配模式,LLM能够自动地将这些模式应用到新的语法版本上,从而实现自动化的语法适配。

技术框架:该方法的技术框架主要包括以下几个阶段:1) 数据准备:收集历史版本的元模型和语法,构建训练数据集。2) 提示工程:设计合适的提示(Prompt)策略,引导LLM学习语法适配的规则。3) 模型训练:使用训练数据对LLM进行微调,使其能够理解和生成语法适配代码。4) 模型评估:使用测试数据集评估LLM的适配效果,并与现有方法进行比较。5) 纵向研究:在真实的项目演化过程中,验证LLM的长期适配能力。

关键创新:该论文最重要的技术创新点在于将LLM引入到语法适配领域,打破了传统方法的局限性。与现有方法相比,该方法无需人工编写复杂的规则,能够自动学习和应用适配模式,从而提高了适配效率和质量。此外,该方法还能够处理更加复杂的语法场景,例如涉及到多个语法规则的适配。

关键设计:论文中关键的设计包括:1) 提示策略的设计,如何有效地引导LLM学习语法适配规则。2) 损失函数的选择,如何衡量LLM生成的语法适配代码的质量。3) 模型规模的选择,如何在计算资源和模型性能之间进行权衡。4) 数据增强方法,如何扩充训练数据集,提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在测试集上,基于LLM的方法在语法规则适配一致性和输出相似性方面均达到了100%,显著优于基于规则的方法(DOT: 84.21%, Xcore: 62.50%)。在QVTo的纵向研究中,LLM方法无需手动编辑即可成功重用学习到的适配,而规则方法需要手动调整。但LLM在大规模语法(EAST-ADL,297条规则)上的适配一致性低于90%。

🎯 应用场景

该研究成果可应用于模型驱动工程领域,特别是需要频繁进行元模型演化的场景。它可以显著减少手动语法适配的工作量,提高开发效率,并降低出错的风险。此外,该方法还可以应用于其他类似的领域,例如代码迁移、API适配等,具有广泛的应用前景。

📄 摘要(原文)

In model-driven engineering, metamodel evolution leads to the need to adapt corresponding grammars to maintain consistency, which typically requires tedious manual work. Existing rule-based methods can achieve partial automation but have limitations when handling complex grammar scenarios. This paper proposes a Large Language Model-based approach that automatically applies adaptations to new grammars after evolution by learning grammar adaptations from previous versions. We evaluated this approach on six real-world Xtext domain-specific languages, using four DSLs as a training set to develop prompting strategies, two DSLs as a test set for validation, and conducting a longitudinal case study on QVTo. The evaluation used three Large Language Models (Claude Sonnet 4.5, ChatGPT 5.1, Gemini 3) and measured grammar adaptation quality from three dimensions: grammar rule-level adaptation consistency, output similarity, and metamodel conformance. Results show that on the test set, all three LLMs achieved 100% adaptation consistency and output similarity, while the rule-based approach achieved only 84.21% on DOT and 62.50% on Xcore. In the QVTo longitudinal study, the LLM-based approach successfully reused learned adaptations across all three evolution steps without manual grammar editing, while the rule-based approach required manual adjustments in two of three transitions. However, on large-scale grammars (EAST-ADL, 297 rules), LLMs' adaptation consistency was far below 90%. This study demonstrates the advantages of LLM-based approaches in handling complex grammar scenarios, while revealing their limitations in large-scale grammar adaptation.