Equivariant Reinforcement Learning for Clifford Quantum Circuit Synthesis

📄 arXiv: 2605.10910v1 📥 PDF

作者: Richie Yeung, Aleks Kissinger, Rob Cornish

分类: quant-ph, cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出等变强化学习框架以实现Clifford量子电路的高效合成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 量子计算 强化学习 等变神经网络 电路合成 辛矩阵 组合优化

📋 核心要点

  1. 现有Clifford电路合成方法在处理大规模电路时,往往难以在保持最优性的同时兼顾计算效率与通用性。
  2. 论文提出一种基于等变强化学习的架构,利用辛矩阵的对称性实现尺寸无关的策略学习,提升了泛化能力。
  3. 实验表明该方法在六量子比特规模下接近最优,并能扩展至三十量子比特,性能显著优于传统启发式合成器。

📝 摘要(中文)

本文研究了全连接量子设备上的Clifford电路合成问题,将其建模为强化学习任务。智能体通过学习一系列基本Clifford门,将给定的辛矩阵表示简化为单位矩阵,并采用基于单位矩阵随机游走的课程学习策略。论文提出了一种对量子比特重标记具有等变性的新型神经网络架构,该架构具备尺寸无关性,允许单一策略在不同量子比特数下直接应用,无需电路拼接或重新参数化。在六量子比特电路实验中,该智能体在毫秒级时间内即可达到接近最优的电路深度,且99.2%的实例能在秒级内找到最优解。在十量子比特实例上训练后,该模型可扩展至三十量子比特的未知电路,在处理包含上千个门的电路时,其双量子比特门计数优于Qiskit的Aaronson-Gottesman及贪婪合成算法。

🔬 方法详解

问题定义:论文旨在解决全连接量子架构下的Clifford电路合成问题,即寻找一组基本门序列将给定的辛矩阵(Symplectic Matrix)约简为单位矩阵。现有方法通常依赖启发式搜索,难以在保证电路深度最优的同时实现大规模扩展。

核心思路:将电路合成转化为强化学习任务,利用辛矩阵的代数结构进行建模。通过引入等变神经网络,使模型能够捕捉量子比特重标记下的对称性,从而实现对不同规模电路的统一处理。

技术框架:整体流程包括:将Clifford电路表示为辛矩阵;构建基于随机游走的课程学习环境;设计具备置换等变性的神经网络作为策略网络;通过强化学习训练智能体,使其输出最优的门序列以还原单位矩阵。

关键创新:核心创新在于引入了对量子比特重标记的等变性架构。这种设计使得模型不再受限于固定的量子比特数量,实现了真正的“尺寸无关性”,即训练好的模型可直接应用于更大规模的电路合成任务。

关键设计:模型采用了能够处理辛矩阵表示的特殊网络结构,确保在量子比特索引发生置换时,输出的策略保持一致。训练过程采用了从单位矩阵出发的随机游走策略,有效解决了合成任务中目标状态稀疏的探索难题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在六量子比特基准测试中,该方法在99.2%的实例中实现了最优电路合成。在扩展至三十量子比特的复杂电路(含千余门)时,其双量子比特门计数显著优于Qiskit的Aaronson-Gottesman及贪婪合成器,且推理速度达到毫秒级,展现了极强的可扩展性与实用价值。

🎯 应用场景

该研究主要应用于量子编译器与量子软件栈开发,特别是在NISQ(含噪声中等规模量子)时代,通过优化电路深度减少门操作,能显著降低量子计算过程中的退相干误差,提升量子算法在实际硬件上的执行成功率。

📄 摘要(原文)

We consider the problem of synthesizing Clifford quantum circuits for devices with all-to-all qubit connectivity. We approach this task as a reinforcement learning problem in which an agent learns to discover a sequence of elementary Clifford gates that reduces a given symplectic matrix representation of a Clifford circuit to the identity. This formulation permits a simple learning curriculum based on random walks from the identity. We introduce a novel neural network architecture that is equivariant to qubit relabelings of the symplectic matrix representation, and which is size-agnostic, allowing a single learned policy to be applied across different qubit counts without circuit splicing or network reparameterization. On six-qubit Clifford circuits, the largest regime for which optimal references are available, our agent finds circuits within one two-qubit gate of optimality in milliseconds per instance, and finds optimal circuits in 99.2% of instances within seconds per instance. After continued training on ten-qubit instances, the agent scales to unseen Clifford tableaus with up to thirty qubits, including targets generated from circuits with over a thousand Clifford gates, where it achieves lower average two-qubit gate counts than Qiskit's Aaronson-Gottesman and greedy Clifford synthesizers.