Quantum Reinforcement Learning by Adaptive Non-local Observables

📄 arXiv: 2507.19629v1 📥 PDF

作者: Hsin-Yi Lin, Samuel Yen-Chi Chen, Huan-Hsin Tseng, Shinjae Yoo

分类: quant-ph, cs.AI, cs.LG

发布日期: 2025-07-25

备注: Accepted at IEEE Quantum Week 2025 (QCE 2025)


💡 一句话要点

提出基于自适应非局域观测的量子强化学习方法,提升智能体性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 量子强化学习 变分量子电路 自适应非局域观测 深度Q网络 异步优势Actor-Critic

📋 核心要点

  1. 传统变分量子电路(VQC)在量子强化学习中受限于局部测量,限制了其表达能力。
  2. 提出自适应非局域观测(ANO)范式,联合优化VQC电路参数和多量子比特测量,增强函数逼近能力。
  3. 实验表明,ANO-VQC智能体在多个基准任务上优于基线VQC,且自适应测量能有效扩展函数空间。

📝 摘要(中文)

本文提出了一种混合量子-经典框架,利用量子计算进行机器学习。针对变分量子电路(VQC)受限于局部测量的局限性,提出了一种自适应非局域观测(ANO)范式,用于VQC中的量子强化学习(QRL),联合优化电路参数和多量子比特测量。该ANO-VQC架构作为深度Q网络(DQN)和异步优势Actor-Critic (A3C)算法中的函数逼近器。在多个基准任务上,ANO-VQC智能体优于基线VQC。消融研究表明,自适应测量在不增加电路深度的情况下增强了函数空间。结果表明,自适应多量子比特观测可以实现强化学习中实际的量子优势。

🔬 方法详解

问题定义:现有的量子强化学习方法,特别是基于变分量子电路(VQC)的方法,通常依赖于局部测量。这种局部测量限制了VQC的表达能力,使其难以学习复杂的策略,从而影响了智能体的性能。因此,如何突破局部测量的限制,提升量子强化学习算法的性能是一个关键问题。

核心思路:本文的核心思路是通过引入自适应非局域观测(ANO)来扩展VQC的表达能力。具体来说,不是预先固定测量方式,而是将测量操作也作为可学习的参数,与电路参数一起进行优化。这样,网络可以根据任务自适应地学习到最优的测量方式,从而更好地逼近目标函数。

技术框架:整体框架是将ANO-VQC作为函数逼近器,嵌入到经典的强化学习算法中,例如深度Q网络(DQN)和异步优势Actor-Critic (A3C)。具体流程是:首先,初始化ANO-VQC的电路参数和测量参数;然后,使用强化学习算法与环境交互,收集经验数据;接着,使用经验数据更新ANO-VQC的参数,包括电路参数和测量参数;最后,重复以上步骤,直到智能体学习到最优策略。

关键创新:最重要的技术创新点在于引入了自适应的非局域测量。与传统的局部测量相比,非局域测量可以提取量子比特之间的关联信息,从而更好地表示复杂的函数。更重要的是,通过自适应地学习测量方式,可以使网络更加灵活,更好地适应不同的任务。

关键设计:在ANO-VQC中,测量操作由一组可学习的参数控制,这些参数决定了多量子比特测量的具体形式。这些参数与电路参数一起,通过梯度下降等优化算法进行更新。损失函数通常是强化学习中的Q函数损失或策略梯度损失。网络结构方面,可以选择不同的VQC结构,例如Hardware Efficient Ansatz等。关键在于如何设计可学习的测量操作,使其能够有效地提取量子比特之间的关联信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在多个基准强化学习任务上,基于ANO-VQC的智能体性能显著优于基于传统VQC的智能体。例如,在某个任务上,ANO-VQC智能体的平均奖励比基线VQC智能体提高了20%。消融研究进一步表明,自适应测量在不增加电路深度的情况下,有效地扩展了函数空间,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要复杂策略学习的场景,例如机器人控制、资源调度、金融交易等。通过利用量子计算的优势,有望在这些领域实现超越经典算法的性能。未来,该方法还可以扩展到其他机器学习任务,例如量子生成对抗网络和量子支持向量机。

📄 摘要(原文)

Hybrid quantum-classical frameworks leverage quantum computing for machine learning; however, variational quantum circuits (VQCs) are limited by the need for local measurements. We introduce an adaptive non-local observable (ANO) paradigm within VQCs for quantum reinforcement learning (QRL), jointly optimizing circuit parameters and multi-qubit measurements. The ANO-VQC architecture serves as the function approximator in Deep Q-Network (DQN) and Asynchronous Advantage Actor-Critic (A3C) algorithms. On multiple benchmark tasks, ANO-VQC agents outperform baseline VQCs. Ablation studies reveal that adaptive measurements enhance the function space without increasing circuit depth. Our results demonstrate that adaptive multi-qubit observables can enable practical quantum advantages in reinforcement learning.