Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters
作者: Borja Aizpurua, Sukhbinder Singh, Augustine Kshetrimayum, Saeed S. Jahromi, Roman Orus
分类: quant-ph, cs.AI, cs.LG
发布日期: 2026-05-07
备注: 31 pages, 6 figures
💡 一句话要点
提出基于Cayley酉矩阵适配器的量子增强大语言模型,在真实量子硬件上实现性能提升
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量子机器学习 大语言模型 参数高效微调 酉矩阵适配器 量子硬件推理 模型压缩
📋 核心要点
- 经典大模型参数量巨大,导致内存需求随规模呈不利增长,限制了模型在资源受限环境下的扩展与部署。
- 提出Cayley参数化酉矩阵适配器,将量子电路作为轻量级模块嵌入冻结的LLM投影层,利用量子算子的独特性增强表达能力。
- 在IBM 156量子比特处理器上验证,Llama 3.1 8B困惑度提升1.4%,并发现噪声与表达能力的相变点,证明了量子硬件在LLM中的实用潜力。
📝 摘要(中文)
大语言模型(LLM)的广泛应用受限于经典架构中参数规模与内存消耗的线性增长。量子计算为突破这一瓶颈提供了新路径,但此前在实际硬件上针对实用规模模型的研究仍属空白。本文提出Cayley参数化酉矩阵适配器,将其作为量子电路模块插入预训练LLM的冻结投影层中,并在IBM Quantum System Two(156量子比特)处理器上执行。实验表明,该方法在Llama 3.1 8B模型上仅增加6,000个参数,便使困惑度(perplexity)提升了1.4%。针对SmolLM2(135M参数)的系统研究进一步揭示了酉矩阵块维度与性能的单调正相关性,实现了83%的压缩退化恢复,并观察到了噪声-表达能力的相变现象,为量子计算在LLM中的实际应用指明了路径。
🔬 方法详解
问题定义:论文旨在解决大语言模型在经典硬件上参数规模与内存消耗的矛盾。现有微调方法(如LoRA)虽能降低计算成本,但仍受限于经典线性代数运算的表达能力,且无法利用量子计算在处理高维酉变换方面的天然优势。
核心思路:引入量子电路作为适配器(Adapter),通过Cayley变换将经典参数映射为酉矩阵。这种设计利用了量子态空间的指数级表达能力,在极小参数增量下实现对模型投影层的有效增强。
技术框架:整体架构采用“冻结主干+量子适配器”模式。将预训练LLM的投影层作为接口,插入Cayley参数化的量子电路块。推理过程通过量子处理单元(QPU)执行酉变换,并将结果反馈回经典神经网络层。
关键创新:核心创新在于Cayley参数化方法,它保证了适配器矩阵的酉性(Unitary),从而在保持量子电路物理可实现性的同时,通过极少的参数实现了对模型权重分布的精细调节,有效缓解了模型压缩带来的性能损失。
关键设计:采用Cayley变换构建酉矩阵,确保了参数更新的稳定性。实验中通过调整量子电路的深度与宽度(即酉矩阵块维度),系统性地探索了噪声与模型表达能力之间的相变关系,为确定量子优势的阈值提供了量化依据。
🖼️ 关键图片
📊 实验亮点
实验在IBM 156量子比特处理器上完成,实现了端到端的真实QPU推理。在Llama 3.1 8B模型上,仅增加6,000个参数即获得1.4%的困惑度提升。在SmolLM2模型上,该方法成功恢复了83%因模型压缩导致的性能退化,并展现出超越经典基线的逻辑推理能力,明确了量子计算在LLM领域实现实用化优势的规模路径。
🎯 应用场景
该技术主要应用于资源受限环境下的LLM部署,如边缘计算设备或对能效要求极高的推理场景。通过量子适配器,可以在不显著增加存储开销的前提下,提升模型在特定任务上的精度。此外,该研究为量子-经典混合计算架构提供了范式,未来有望在金融预测、复杂逻辑推理等需要高维特征映射的领域发挥重要作用。
📄 摘要(原文)
Large language models (LLMs) have transformed artificial intelligence, yet classical architectures impose a fundamental constraint: every trainable parameter demands classical memory that scales unfavourably with model size. Quantum computing offers a qualitatively different pathway, but practical demonstrations on real hardware have remained elusive for models of practical relevance. Here we show that Cayley-parameterised unitary adapters -- quantum circuit blocks inserted into the frozen projection layers of pre-trained LLMs and executed on a 156-qubit IBM Quantum System Two superconducting processor -- improve the perplexity of Llama 3.1 8B, an 8-billion-parameter model in widespread use, by 1.4% with only 6,000 additional parameters and end-to-end inference validated on real Quantum Processing Unit (QPU). A systematic study on SmolLM2 (135M parameters), chosen for its tractability, reveals monotonically improving perplexity with unitary block dimension, 83% recovery of compression-induced degradation, and correct answers to questions that both classical baselines fail -- with a sharp noise-expressivity phase transition identifying the concrete path to quantum utility at larger qubit scales.