PennySynth: RAG-Driven Data Synthesis for Automated Quantum Code Generation

📄 arXiv: 2605.25572v1 📥 PDF

作者: Minghao Shao, Nouhaila Innan, Hariharan Janardhanan, Muhammad Kashif, Alberto Marchisio, Muhammad Shafique

分类: cs.CL, cs.AI

发布日期: 2026-05-25

备注: 11 pages, 3 figures


💡 一句话要点

PennySynth:基于RAG的量子代码自动生成数据合成框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量子代码生成 检索增强生成 大型语言模型 PennyLane 代码感知嵌入

📋 核心要点

  1. 现有基于LLM的代码助手在处理特定量子编程任务时,容易出现PennyLane相关的幻觉和结构错误,限制了其在量子计算领域的应用。
  2. PennySynth利用检索增强生成,构建包含大量PennyLane指令-代码对的知识库,并采用代码感知的嵌入策略,提升检索的准确性。
  3. 实验表明,PennySynth在QHack竞赛中显著优于通用LLM,pass@5指标提升高达28个百分点,验证了其在量子代码生成方面的有效性。

📝 摘要(中文)

量子编程框架日益复杂,现有基于大型语言模型(LLM)的代码助手面临局限性:在处理特定的量子编码挑战时,通用模型会产生PennyLane特定的门名称幻觉、设备配置错误以及结构无效的电路。我们提出了PennySynth,一个检索增强生成框架,通过在官方PennyLane存储库、社区GitHub资源和QHack竞赛档案上构建的三阶段提取、验证和去重流程,利用包含13389个PennyLane指令-代码对的精选知识库来调节LLM推理,从而解决这一问题。PennySynth引入了一种使用st-codesearch-distilroberta-base的代码感知嵌入策略,用于自然语言到代码的检索,与通用基线相比,平均检索余弦相似度从0.45提高到0.726。在涵盖三年QHack竞赛(2022、2023、2024)的74个挑战中进行评估,PennySynth在QHack 2022、2023和2024上分别实现了64%、68%和52%的pass@5,相比没有检索的Claude Sonnet 4.6,分别提高了+28、+25和+28个百分点。我们进一步引入了一种量子自适应的CodeBLEU指标,该指标对qml.* token模式进行加权,并表明结构代码相似性和功能正确性捕捉了量子代码质量的不同方面。受控消融实验表明,代码感知嵌入是检索性能的主要驱动因素,而数据集扩展和源组合在检索质量足够精确时提供了额外的增益。

🔬 方法详解

问题定义:论文旨在解决现有大型语言模型在自动生成量子代码时,由于缺乏特定领域的知识而导致的错误和低效问题。现有方法,如直接使用通用LLM,无法准确理解和生成PennyLane框架下的量子代码,容易出现门名称幻觉、设备配置错误和电路结构无效等问题。

核心思路:论文的核心思路是利用检索增强生成(RAG)框架,通过构建一个包含大量PennyLane指令-代码对的知识库,让LLM在生成代码时能够检索相关信息,从而提高代码的准确性和可靠性。这种方法将LLM的生成能力与领域知识库相结合,弥补了LLM在特定领域知识上的不足。

技术框架:PennySynth框架主要包含三个阶段:数据提取、数据验证和数据去重。首先,从官方PennyLane存储库、社区GitHub资源和QHack竞赛档案中提取PennyLane指令-代码对。然后,对提取的数据进行验证,确保代码的正确性和有效性。最后,对数据进行去重,消除冗余信息。在推理阶段,使用代码感知的嵌入模型对输入问题进行编码,然后在知识库中检索最相关的代码片段,最后将检索到的代码片段作为上下文输入LLM,生成最终的量子代码。

关键创新:论文的关键创新在于引入了一种代码感知的嵌入策略,使用st-codesearch-distilroberta-base模型,该模型专门针对自然语言到代码的检索进行了训练。与通用的嵌入模型相比,该模型能够更好地捕捉代码的语义信息,从而提高检索的准确性。此外,论文还提出了一个量子自适应的CodeBLEU指标,用于评估生成的量子代码的质量。

关键设计:代码感知嵌入模型使用st-codesearch-distilroberta-base,并通过对比学习进行训练,以提高自然语言和代码之间的相似度。知识库包含13389个PennyLane指令-代码对,这些数据经过了严格的验证和去重。量子自适应的CodeBLEU指标对qml.* token模式进行加权,以更好地反映量子代码的结构和语义信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PennySynth在QHack 2022、2023和2024的74个挑战中进行了评估,分别实现了64%、68%和52%的pass@5,相比没有检索的Claude Sonnet 4.6,分别提高了+28、+25和+28个百分点。代码感知嵌入策略将平均检索余弦相似度从0.45提高到0.726。这些结果表明,PennySynth在量子代码生成方面具有显著的优势。

🎯 应用场景

PennySynth可应用于量子算法开发、量子程序自动生成、量子计算教育等领域。它可以帮助量子计算研究人员和工程师更高效地编写和调试量子代码,降低量子编程的门槛,加速量子计算技术的发展。此外,该方法也可以推广到其他特定领域的代码生成任务中。

📄 摘要(原文)

The growing complexity of quantum programming frameworks has exposed a critical limitation in existing large language model (LLM)-based code assistants: general-purpose models hallucinate PennyLane-specific gate names, misplace device configurations, and produce structurally invalid circuits when faced with specialized quantum coding challenges. We present PennySynth, a retrieval-augmented generation framework that addresses this gap by conditioning LLM inference on a curated knowledge base of 13,389 PennyLane instruction-code pairs, built via a three-stage extraction, verification, and deduplication pipeline over official PennyLane repositories, community GitHub sources, and QHack competition archives. PennySynth introduces a code-aware embedding strategy using st-codesearch-distilroberta-base, trained for natural-language-to-code retrieval, increasing average retrieval cosine similarity from 0.45 to 0.726 compared to a general-purpose baseline. Evaluated across 74 challenges spanning three years of the QHack competition (2022, 2023, 2024), PennySynth achieves 64%, 68%, and 52% pass@5 on QHack 2022, 2023, and 2024, respectively, improving over Claude Sonnet 4.6 without retrieval by +28, +25, and +28 percentage points. We further introduce a quantum-adapted CodeBLEU metric that upweights qml.* token patterns and show that structural code similarity and functional correctness capture distinct aspects of quantum code quality. Controlled ablations reveal that code-aware embeddings are the primary driver of retrieval performance, while dataset expansion and source composition provide additional gains when retrieval quality is sufficiently precise.