Model-Driven Quantum Code Generation Using Large Language Models and Retrieval-Augmented Generation

📄 arXiv: 2508.21097v1 📥 PDF

作者: Nazanin Siavash, Armin Moin

分类: cs.SE, cs.AI

发布日期: 2025-08-28

备注: This paper is accepted to the New Ideas and Emerging Results (NIER) track of the ACM/IEEE 28th International Conference on Model Driven Engineering Languages and Systems (MODELS)

DOI: 10.1109/MODELS67397.2025.00031


💡 一句话要点

利用大语言模型和RAG生成模型驱动的量子代码,降低开发成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量子计算 大语言模型 检索增强生成 模型驱动开发 代码生成

📋 核心要点

  1. 量子软件开发面临异构平台和开发者技能不足的挑战,增加了开发成本和风险。
  2. 利用大语言模型(LLM)和检索增强生成(RAG)流程,实现从UML模型实例到量子代码的自动生成。
  3. 实验表明,通过优化提示工程,CodeBLEU分数可提高四倍,显著提升生成量子代码的准确性和一致性。

📝 摘要(中文)

本文提出了一种新的模型到文本/代码转换的研究方向,利用大型语言模型(LLM),并通过检索增强生成(RAG)流程进行增强。重点是量子和混合量子-经典软件系统,其中模型驱动的方法可以帮助降低成本,并减轻与异构平台环境和缺乏开发者技能相关的风险。我们验证了关于从软件系统的UML模型实例生成代码的提议。此Python代码使用名为Qiskit的成熟库,以在基于门或基于电路的量子计算机上执行。我们部署的RAG流程包含来自公共GitHub存储库的示例Qiskit代码。实验结果表明,精心设计的提示可以将CodeBLEU分数提高多达四倍,从而产生更准确和一致的量子代码。然而,通过未来进一步的研究,本文提出的研究方向可以超越这一点,例如,在RAG流程中部署软件系统模型实例作为信息来源,或者部署LLM进行代码到代码的转换,例如,用于转译用例。

🔬 方法详解

问题定义:论文旨在解决量子软件开发中,由于异构平台和开发者技能匮乏导致的高成本和高风险问题。现有方法难以有效利用模型驱动方法,实现从软件模型到量子代码的自动转换。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大代码生成能力,并结合检索增强生成(RAG)技术,将UML模型实例转换为可执行的量子代码。通过RAG,LLM可以访问包含大量Qiskit代码的知识库,从而生成更准确、更符合规范的量子代码。

技术框架:整体框架包含以下几个主要步骤:1) 构建软件系统的UML模型实例;2) 使用RAG流程,从GitHub等公共代码仓库检索相关的Qiskit代码片段;3) 将UML模型实例和检索到的代码片段作为提示输入到LLM中;4) LLM生成相应的Python代码,该代码使用Qiskit库在量子计算机上执行。

关键创新:关键创新在于将RAG技术引入到模型驱动的量子代码生成中。传统的模型驱动方法依赖于预定义的转换规则,难以处理复杂的量子算法和异构的量子计算平台。RAG通过检索相关的代码示例,为LLM提供了更丰富的上下文信息,从而提高了代码生成的质量和灵活性。

关键设计:RAG流程的关键设计包括:1) 代码检索策略,例如基于关键词的检索或基于语义相似度的检索;2) 提示工程,即如何将UML模型实例和检索到的代码片段有效地组织成LLM可以理解的提示;3) CodeBLEU评分,用于评估生成代码的质量和准确性。论文重点研究了提示工程对CodeBLEU分数的影响,并发现精心设计的提示可以显著提高代码生成的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过精心设计的提示工程,RAG pipeline可以将CodeBLEU分数提高多达四倍,显著提升了生成量子代码的准确性和一致性。这表明,LLM和RAG技术在量子代码生成方面具有巨大的潜力,能够有效降低量子软件开发的成本和风险。

🎯 应用场景

该研究成果可应用于量子软件开发自动化、量子算法原型设计、以及量子计算教育等领域。通过降低量子软件开发的门槛,加速量子计算技术在各行业的应用,例如药物发现、材料科学、金融建模等。未来可进一步探索LLM在量子代码优化、量子程序验证等方面的应用。

📄 摘要(原文)

This paper introduces a novel research direction for model-to-text/code transformations by leveraging Large Language Models (LLMs) that can be enhanced with Retrieval-Augmented Generation (RAG) pipelines. The focus is on quantum and hybrid quantum-classical software systems, where model-driven approaches can help reduce the costs and mitigate the risks associated with the heterogeneous platform landscape and lack of developers' skills. We validate one of the proposed ideas regarding generating code out of UML model instances of software systems. This Python code uses a well-established library, called Qiskit, to execute on gate-based or circuit-based quantum computers. The RAG pipeline that we deploy incorporates sample Qiskit code from public GitHub repositories. Experimental results show that well-engineered prompts can improve CodeBLEU scores by up to a factor of four, yielding more accurate and consistent quantum code. However, the proposed research direction can go beyond this through further investigation in the future by conducting experiments to address our other research questions and ideas proposed here, such as deploying software system model instances as the source of information in the RAG pipelines, or deploying LLMs for code-to-code transformations, for instance, for transpilation use cases.