Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters

作者: Borja Aizpurua, Sukhbinder Singh, Augustine Kshetrimayum, Saeed S. Jahromi, Roman Orus

分类: quant-ph, cs.AI, cs.LG

发布日期: 2026-05-07

备注: 31 pages, 6 figures

💡 一句话要点

提出基于Cayley酉矩阵适配器的量子增强大语言模型，在真实量子硬件上实现性能提升

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 量子机器学习 大语言模型 参数高效微调 酉矩阵适配器 量子硬件推理 模型压缩

📋 核心要点

经典大模型参数量巨大，导致内存需求随规模呈不利增长，限制了模型在资源受限环境下的扩展与部署。
提出Cayley参数化酉矩阵适配器，将量子电路作为轻量级模块嵌入冻结的LLM投影层，利用量子算子的独特性增强表达能力。
在IBM 156量子比特处理器上验证，Llama 3.1 8B困惑度提升1.4%，并发现噪声与表达能力的相变点，证明了量子硬件在LLM中的实用潜力。

📝 摘要（中文）

大语言模型（LLM）的广泛应用受限于经典架构中参数规模与内存消耗的线性增长。量子计算为突破这一瓶颈提供了新路径，但此前在实际硬件上针对实用规模模型的研究仍属空白。本文提出Cayley参数化酉矩阵适配器，将其作为量子电路模块插入预训练LLM的冻结投影层中，并在IBM Quantum System Two（156量子比特）处理器上执行。实验表明，该方法在Llama 3.1 8B模型上仅增加6,000个参数，便使困惑度（perplexity）提升了1.4%。针对SmolLM2（135M参数）的系统研究进一步揭示了酉矩阵块维度与性能的单调正相关性，实现了83%的压缩退化恢复，并观察到了噪声-表达能力的相变现象，为量子计算在LLM中的实际应用指明了路径。

🔬 方法详解

问题定义：论文旨在解决大语言模型在经典硬件上参数规模与内存消耗的矛盾。现有微调方法（如LoRA）虽能降低计算成本，但仍受限于经典线性代数运算的表达能力，且无法利用量子计算在处理高维酉变换方面的天然优势。

核心思路：引入量子电路作为适配器（Adapter），通过Cayley变换将经典参数映射为酉矩阵。这种设计利用了量子态空间的指数级表达能力，在极小参数增量下实现对模型投影层的有效增强。

技术框架：整体架构采用“冻结主干+量子适配器”模式。将预训练LLM的投影层作为接口，插入Cayley参数化的量子电路块。推理过程通过量子处理单元（QPU）执行酉变换，并将结果反馈回经典神经网络层。

关键创新：核心创新在于Cayley参数化方法，它保证了适配器矩阵的酉性（Unitary），从而在保持量子电路物理可实现性的同时，通过极少的参数实现了对模型权重分布的精细调节，有效缓解了模型压缩带来的性能损失。

关键设计：采用Cayley变换构建酉矩阵，确保了参数更新的稳定性。实验中通过调整量子电路的深度与宽度（即酉矩阵块维度），系统性地探索了噪声与模型表达能力之间的相变关系，为确定量子优势的阈值提供了量化依据。

🖼️ 关键图片

📊 实验亮点

实验在IBM 156量子比特处理器上完成，实现了端到端的真实QPU推理。在Llama 3.1 8B模型上，仅增加6,000个参数即获得1.4%的困惑度提升。在SmolLM2模型上，该方法成功恢复了83%因模型压缩导致的性能退化，并展现出超越经典基线的逻辑推理能力，明确了量子计算在LLM领域实现实用化优势的规模路径。

🎯 应用场景

该技术主要应用于资源受限环境下的LLM部署，如边缘计算设备或对能效要求极高的推理场景。通过量子适配器，可以在不显著增加存储开销的前提下，提升模型在特定任务上的精度。此外，该研究为量子-经典混合计算架构提供了范式，未来有望在金融预测、复杂逻辑推理等需要高维特征映射的领域发挥重要作用。

📄 摘要（原文）

Large language models (LLMs) have transformed artificial intelligence, yet classical architectures impose a fundamental constraint: every trainable parameter demands classical memory that scales unfavourably with model size. Quantum computing offers a qualitatively different pathway, but practical demonstrations on real hardware have remained elusive for models of practical relevance. Here we show that Cayley-parameterised unitary adapters -- quantum circuit blocks inserted into the frozen projection layers of pre-trained LLMs and executed on a 156-qubit IBM Quantum System Two superconducting processor -- improve the perplexity of Llama 3.1 8B, an 8-billion-parameter model in widespread use, by 1.4% with only 6,000 additional parameters and end-to-end inference validated on real Quantum Processing Unit (QPU). A systematic study on SmolLM2 (135M parameters), chosen for its tractability, reveals monotonically improving perplexity with unitary block dimension, 83% recovery of compression-induced degradation, and correct answers to questions that both classical baselines fail -- with a sharp noise-expressivity phase transition identifying the concrete path to quantum utility at larger qubit scales.

Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理