Revisiting Quantum Code Generation: Where Should Domain Knowledge Live?
作者: Oscar Novo, Oscar Bastidas-Jossa, Alberto Calvo, Antonio Peris, Carlos Kuchkovsky
分类: cs.LG, quant-ph
发布日期: 2026-03-23
备注: Submitted to Quantum Machine Intelligence
💡 一句话要点
通过推理时增强,提升LLM在量子代码生成中的性能,无需领域微调。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量子代码生成 大型语言模型 检索增强生成 执行反馈 Qiskit 软件开发 推理时增强
📋 核心要点
- 量子软件开发中,如何将领域知识融入LLM助手,同时保持库的可维护性是一个挑战。
- 论文探索了在Qiskit代码生成中,利用检索增强生成(RAG)和执行反馈代理增强通用LLM的策略。
- 实验表明,通用LLM通过推理时增强,性能显著优于领域微调模型,最高提升超过35%。
📝 摘要(中文)
大型语言模型(LLM)的最新进展使得自动化越来越多的编程任务成为可能,包括科学和工程领域的代码生成。在快速发展的软件生态系统(如量子软件开发)中,框架暴露了复杂的抽象,一个核心问题是如何最好地将领域知识融入到基于LLM的助手中,同时保持库演进的可维护性。本文研究了使用Qiskit-HumanEval基准进行Qiskit代码生成的专业化策略。我们将先前工作中引入的参数专用微调基线与一系列最新的通用LLM进行了比较,这些LLM通过检索增强生成(RAG)和基于执行反馈的基于代理的推理进行了增强。结果表明,现代通用LLM始终优于参数专用基线。虽然微调模型在Qiskit-HumanEval上实现了约47%的pass@1,但最近的通用模型在零样本和检索增强设置下达到了60-65%,对于最强的评估模型,当与迭代执行反馈代理结合使用时,达到了85%——比零样本通用性能提高了20%以上,比参数专用基线提高了35%以上。代理执行反馈产生了最一致的改进,尽管运行时成本增加,而RAG提供了适度和模型相关的收益。这些发现表明,可以在不进行领域特定微调的情况下实现性能提升,而是依赖于推理时增强,从而为LLM辅助量子软件开发提供了一种更灵活和可维护的方法。
🔬 方法详解
问题定义:论文旨在解决量子软件开发中,如何有效地利用大型语言模型(LLM)生成Qiskit代码的问题。现有方法,如领域特定微调,虽然可以提升性能,但存在可维护性问题,因为需要随着Qiskit库的更新不断重新训练模型。
核心思路:论文的核心思路是避免领域特定微调,而是利用通用LLM,并通过推理时增强技术(如检索增强生成RAG和执行反馈代理)来提升其在Qiskit代码生成任务上的性能。这样可以在不牺牲可维护性的前提下,充分利用LLM的强大能力。
技术框架:论文采用的整体框架包括以下几个关键模块:1) 通用LLM:作为代码生成的基础模型。2) 检索增强生成(RAG):利用检索到的相关文档来增强LLM的输入,提供更多上下文信息。3) 执行反馈代理:通过执行生成的代码,并根据执行结果进行迭代改进,从而提高代码的正确性。
关键创新:论文的关键创新在于证明了在量子代码生成任务中,可以通过推理时增强技术,使通用LLM的性能超越领域特定微调模型。这表明领域知识可以通过RAG和执行反馈等方式有效地融入到LLM中,而无需进行昂贵且难以维护的微调。
关键设计:论文的关键设计包括:1) 使用Qiskit-HumanEval作为评估基准。2) 比较了不同LLM(包括微调模型和通用模型)在不同设置下的性能。3) 详细分析了RAG和执行反馈代理对性能的影响。4) 评估了不同模型的pass@1指标,以衡量代码生成的准确性。
📊 实验亮点
实验结果表明,通过结合迭代执行反馈代理,最强的通用LLM在Qiskit-HumanEval上达到了85%的pass@1,比零样本通用性能提高了20%以上,比参数专用微调基线提高了35%以上。RAG也提供了适度的性能提升,但效果依赖于具体的LLM模型。
🎯 应用场景
该研究成果可应用于量子计算软件开发领域,为开发者提供更智能、更高效的代码生成辅助工具。通过利用通用LLM和推理时增强技术,可以降低开发成本,提高代码质量,并加速量子计算应用的开发和部署。此外,该方法也适用于其他快速发展的软件领域。
📄 摘要(原文)
Recent advances in large language models (LLMs) have enabled the automation of an increasing number of programming tasks, including code generation for scientific and engineering domains. In rapidly evolving software ecosystems such as quantum software development, where frameworks expose complex abstractions, a central question is how best to incorporate domain knowledge into LLM-based assistants while preserving maintainability as libraries evolve. In this work, we study specialization strategies for Qiskit code generation using the Qiskit-HumanEval benchmark. We compare a parameter-specialized fine-tuned baseline introduced in prior work against a range of recent general-purpose LLMs enhanced with retrieval-augmented generation (RAG) and agent-based inference with execution feedback. Our results show that modern general-purpose LLMs consistently outperform the parameter-specialized baseline. While the fine-tuned model achieves approximately 47% pass@1 on Qiskit-HumanEval, recent general-purpose models reach 60-65% under zero-shot and retrieval-augmented settings, and up to 85% for the strongest evaluated model when combined with iterative execution-feedback agents -representing an improvement of more than 20% over zero-shot general-purpose performance and more than 35% over the parameter-specialized baseline. Agentic execution feedback yields the most consistent improvements, albeit at increased runtime cost, while RAG provides modest and model-dependent gains. These findings indicate that performance gains can be achieved without domain-specific fine-tuning, instead relying on inference-time augmentation, thereby enabling a more flexible and maintainable approach to LLM-assisted quantum software development.