Automated Design of Structured Variational Quantum Circuits with Reinforcement Learning
作者: Gloria Turati, Simone Foderà, Riccardo Nembrini, Maurizio Ferrari Dacrema, Paolo Cremonesi
分类: quant-ph, cs.LG
发布日期: 2025-07-21
💡 一句话要点
提出基于强化学习的自动变分量子电路设计方法,优化组合优化问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 变分量子算法 强化学习 量子电路设计 组合优化 量子近似优化算法
📋 核心要点
- 变分量子算法的性能高度依赖于电路ansatz的设计,而现有方法通常依赖启发式,缺乏自动化和优化。
- 论文提出基于强化学习的RLVQC方法,将电路设计视为序列决策问题,通过学习优化目标函数。
- 实验表明,RLVQC Block在QUBO问题上优于QAOA,RLVQC Global能找到更短的电路,表明结构化与适应性平衡的重要性。
📝 摘要(中文)
变分量子算法(VQAs)是利用近期量子硬件最有希望的方法之一,但其有效性很大程度上取决于底层电路 ansatz 的设计,而这些设计通常使用启发式方法构建。本文将变分量子电路的综合表示为一个序列决策问题,其中迭代地添加门以优化目标函数。我们引入了两种基于强化学习的方法,RLVQC Global 和 RLVQC Block,专门用于组合优化问题。RLVQC Block 通过发现一个应用于所有交互量子比特对的双量子比特块,创建了推广量子近似优化算法(QAOA)的 ansatz。RLVQC Global 进一步推广了 ansatz,并添加了不受交互量子比特结构约束的门。两种方法都采用了近端策略优化(PPO)算法,并使用经验测量结果作为状态观察来指导 agent。我们在源自经典基于图的优化问题的广泛 QUBO 实例上评估了所提出的方法。结果表明,两种 RLVQC 方法都表现出强大的结果,其中 RLVQC Block 始终优于 QAOA,并且通常超过 RLVQC Global。虽然 RLVQC Block 产生的电路深度与 QAOA 相当,但 Global 变体能够找到明显更短的电路。这些发现表明,强化学习方法可以有效地发现为特定问题量身定制的新 ansatz 结构,并且最有效的电路设计策略介于刚性的预定义架构和完全不受约束的架构之间,从而在结构和适应性之间提供了有利的权衡。
🔬 方法详解
问题定义:论文旨在解决变分量子算法中电路ansatz设计的问题。现有方法,如QAOA,依赖于预定义的结构或启发式方法,缺乏自动化和针对特定问题的优化能力。这限制了VQAs在解决各种问题时的性能和效率。
核心思路:论文的核心思路是将变分量子电路的设计过程建模为一个序列决策问题,并利用强化学习来自动搜索最优的电路结构。通过定义合适的状态、动作和奖励函数,强化学习agent可以学习如何在电路中添加量子门,以优化给定的目标函数。
技术框架:整体框架包括以下几个主要模块:1) 环境:定义了量子电路的状态,包括量子比特的数量、已添加的量子门等。2) Agent:使用Proximal Policy Optimization (PPO)算法进行训练,根据当前状态选择要添加的量子门。3) 奖励函数:根据电路在目标问题上的性能(例如,能量期望值)来评估agent的行为,并提供奖励信号。4) 训练循环:agent与环境交互,不断学习和改进其策略,最终找到最优的电路结构。论文提出了两种agent,RLVQC Global和RLVQC Block,分别采用不同的动作空间。
关键创新:论文的关键创新在于将强化学习应用于变分量子电路的自动设计,并提出了两种不同的agent架构。RLVQC Block通过学习一个双量子比特块并将其应用于所有交互的量子比特对,从而推广了QAOA。RLVQC Global则更加灵活,可以添加不受量子比特结构约束的门。这种方法能够自动发现针对特定问题的优化电路结构,而无需人工设计。
关键设计:RLVQC Block的关键设计在于其动作空间,它限制agent只能选择一个双量子比特块,并将其应用于所有交互的量子比特对。RLVQC Global的动作空间则更加自由,agent可以选择任何单量子比特或双量子比特门,并将其添加到电路中的任何位置。两种agent都使用PPO算法进行训练,并使用经验测量结果作为状态观察。奖励函数通常与目标问题的能量期望值相关,例如,最小化QUBO问题的能量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RLVQC Block在解决QUBO问题时,性能始终优于QAOA,并且通常超过RLVQC Global。虽然RLVQC Block生成的电路深度与QAOA相当,但RLVQC Global能够找到显著更短的电路。这些结果表明,强化学习可以有效地发现针对特定问题的优化电路结构。
🎯 应用场景
该研究成果可应用于量子化学、材料科学、金融建模等领域,通过自动设计优化的量子电路,提升变分量子算法在解决实际问题时的性能。它还可以加速新量子算法的发现,并降低量子计算的开发成本,推动量子计算的实际应用。
📄 摘要(原文)
Variational Quantum Algorithms (VQAs) are among the most promising approaches for leveraging near-term quantum hardware, yet their effectiveness strongly depends on the design of the underlying circuit ansatz, which is typically constructed with heuristic methods. In this work, we represent the synthesis of variational quantum circuits as a sequential decision-making problem, where gates are added iteratively in order to optimize an objective function, and we introduce two reinforcement learning-based methods, RLVQC Global and RLVQC Block, tailored to combinatorial optimization problems. RLVQC Block creates ansatzes that generalize the Quantum Approximate Optimization Algorithm (QAOA), by discovering a two-qubits block that is applied to all the interacting qubit pairs. While RLVQC Global further generalizes the ansatz and adds gates unconstrained by the structure of the interacting qubits. Both methods adopt the Proximal Policy Optimization (PPO) algorithm and use empirical measurement outcomes as state observations to guide the agent. We evaluate the proposed methods on a broad set of QUBO instances derived from classical graph-based optimization problems. Our results show that both RLVQC methods exhibit strong results with RLVQC Block consistently outperforming QAOA and generally surpassing RLVQC Global. While RLVQC Block produces circuits with depth comparable to QAOA, the Global variant is instead able to find significantly shorter ones. These findings suggest that reinforcement learning methods can be an effective tool to discover new ansatz structures tailored for specific problems and that the most effective circuit design strategy lies between rigid predefined architectures and completely unconstrained ones, offering a favourable trade-off between structure and adaptability.