Equivariant Reinforcement Learning for Clifford Quantum Circuit Synthesis

作者: Richie Yeung, Aleks Kissinger, Rob Cornish

分类: quant-ph, cs.LG

发布日期: 2026-05-11

💡 一句话要点

提出等变强化学习框架以实现Clifford量子电路的高效合成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 量子计算 强化学习 等变神经网络 电路合成 辛矩阵 组合优化

📋 核心要点

现有Clifford电路合成方法在处理大规模电路时，往往难以在保持最优性的同时兼顾计算效率与通用性。
论文提出一种基于等变强化学习的架构，利用辛矩阵的对称性实现尺寸无关的策略学习，提升了泛化能力。
实验表明该方法在六量子比特规模下接近最优，并能扩展至三十量子比特，性能显著优于传统启发式合成器。

📝 摘要（中文）

本文研究了全连接量子设备上的Clifford电路合成问题，将其建模为强化学习任务。智能体通过学习一系列基本Clifford门，将给定的辛矩阵表示简化为单位矩阵，并采用基于单位矩阵随机游走的课程学习策略。论文提出了一种对量子比特重标记具有等变性的新型神经网络架构，该架构具备尺寸无关性，允许单一策略在不同量子比特数下直接应用，无需电路拼接或重新参数化。在六量子比特电路实验中，该智能体在毫秒级时间内即可达到接近最优的电路深度，且99.2%的实例能在秒级内找到最优解。在十量子比特实例上训练后，该模型可扩展至三十量子比特的未知电路，在处理包含上千个门的电路时，其双量子比特门计数优于Qiskit的Aaronson-Gottesman及贪婪合成算法。

🔬 方法详解

问题定义：论文旨在解决全连接量子架构下的Clifford电路合成问题，即寻找一组基本门序列将给定的辛矩阵（Symplectic Matrix）约简为单位矩阵。现有方法通常依赖启发式搜索，难以在保证电路深度最优的同时实现大规模扩展。

核心思路：将电路合成转化为强化学习任务，利用辛矩阵的代数结构进行建模。通过引入等变神经网络，使模型能够捕捉量子比特重标记下的对称性，从而实现对不同规模电路的统一处理。

技术框架：整体流程包括：将Clifford电路表示为辛矩阵；构建基于随机游走的课程学习环境；设计具备置换等变性的神经网络作为策略网络；通过强化学习训练智能体，使其输出最优的门序列以还原单位矩阵。

关键创新：核心创新在于引入了对量子比特重标记的等变性架构。这种设计使得模型不再受限于固定的量子比特数量，实现了真正的“尺寸无关性”，即训练好的模型可直接应用于更大规模的电路合成任务。

关键设计：模型采用了能够处理辛矩阵表示的特殊网络结构，确保在量子比特索引发生置换时，输出的策略保持一致。训练过程采用了从单位矩阵出发的随机游走策略，有效解决了合成任务中目标状态稀疏的探索难题。

🖼️ 关键图片

📊 实验亮点

在六量子比特基准测试中，该方法在99.2%的实例中实现了最优电路合成。在扩展至三十量子比特的复杂电路（含千余门）时，其双量子比特门计数显著优于Qiskit的Aaronson-Gottesman及贪婪合成器，且推理速度达到毫秒级，展现了极强的可扩展性与实用价值。

🎯 应用场景

该研究主要应用于量子编译器与量子软件栈开发，特别是在NISQ（含噪声中等规模量子）时代，通过优化电路深度减少门操作，能显著降低量子计算过程中的退相干误差，提升量子算法在实际硬件上的执行成功率。

📄 摘要（原文）

We consider the problem of synthesizing Clifford quantum circuits for devices with all-to-all qubit connectivity. We approach this task as a reinforcement learning problem in which an agent learns to discover a sequence of elementary Clifford gates that reduces a given symplectic matrix representation of a Clifford circuit to the identity. This formulation permits a simple learning curriculum based on random walks from the identity. We introduce a novel neural network architecture that is equivariant to qubit relabelings of the symplectic matrix representation, and which is size-agnostic, allowing a single learned policy to be applied across different qubit counts without circuit splicing or network reparameterization. On six-qubit Clifford circuits, the largest regime for which optimal references are available, our agent finds circuits within one two-qubit gate of optimality in milliseconds per instance, and finds optimal circuits in 99.2% of instances within seconds per instance. After continued training on ten-qubit instances, the agent scales to unseen Clifford tableaus with up to thirty qubits, including targets generated from circuits with over a thousand Clifford gates, where it achieves lower average two-qubit gate counts than Qiskit's Aaronson-Gottesman and greedy Clifford synthesizers.

Equivariant Reinforcement Learning for Clifford Quantum Circuit Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理