Quantum Reinforcement Learning by Adaptive Non-local Observables
作者: Hsin-Yi Lin, Samuel Yen-Chi Chen, Huan-Hsin Tseng, Shinjae Yoo
分类: quant-ph, cs.AI, cs.LG
发布日期: 2025-07-25
备注: Accepted at IEEE Quantum Week 2025 (QCE 2025)
💡 一句话要点
提出基于自适应非局域观测的量子强化学习方法,提升智能体性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 量子强化学习 变分量子电路 自适应非局域观测 深度Q网络 异步优势Actor-Critic
📋 核心要点
- 传统变分量子电路(VQC)在量子强化学习中受限于局部测量,限制了其表达能力。
- 提出自适应非局域观测(ANO)范式,联合优化VQC电路参数和多量子比特测量,增强函数逼近能力。
- 实验表明,ANO-VQC智能体在多个基准任务上优于基线VQC,且自适应测量能有效扩展函数空间。
📝 摘要(中文)
本文提出了一种混合量子-经典框架,利用量子计算进行机器学习。针对变分量子电路(VQC)受限于局部测量的局限性,提出了一种自适应非局域观测(ANO)范式,用于VQC中的量子强化学习(QRL),联合优化电路参数和多量子比特测量。该ANO-VQC架构作为深度Q网络(DQN)和异步优势Actor-Critic (A3C)算法中的函数逼近器。在多个基准任务上,ANO-VQC智能体优于基线VQC。消融研究表明,自适应测量在不增加电路深度的情况下增强了函数空间。结果表明,自适应多量子比特观测可以实现强化学习中实际的量子优势。
🔬 方法详解
问题定义:现有的量子强化学习方法,特别是基于变分量子电路(VQC)的方法,通常依赖于局部测量。这种局部测量限制了VQC的表达能力,使其难以学习复杂的策略,从而影响了智能体的性能。因此,如何突破局部测量的限制,提升量子强化学习算法的性能是一个关键问题。
核心思路:本文的核心思路是通过引入自适应非局域观测(ANO)来扩展VQC的表达能力。具体来说,不是预先固定测量方式,而是将测量操作也作为可学习的参数,与电路参数一起进行优化。这样,网络可以根据任务自适应地学习到最优的测量方式,从而更好地逼近目标函数。
技术框架:整体框架是将ANO-VQC作为函数逼近器,嵌入到经典的强化学习算法中,例如深度Q网络(DQN)和异步优势Actor-Critic (A3C)。具体流程是:首先,初始化ANO-VQC的电路参数和测量参数;然后,使用强化学习算法与环境交互,收集经验数据;接着,使用经验数据更新ANO-VQC的参数,包括电路参数和测量参数;最后,重复以上步骤,直到智能体学习到最优策略。
关键创新:最重要的技术创新点在于引入了自适应的非局域测量。与传统的局部测量相比,非局域测量可以提取量子比特之间的关联信息,从而更好地表示复杂的函数。更重要的是,通过自适应地学习测量方式,可以使网络更加灵活,更好地适应不同的任务。
关键设计:在ANO-VQC中,测量操作由一组可学习的参数控制,这些参数决定了多量子比特测量的具体形式。这些参数与电路参数一起,通过梯度下降等优化算法进行更新。损失函数通常是强化学习中的Q函数损失或策略梯度损失。网络结构方面,可以选择不同的VQC结构,例如Hardware Efficient Ansatz等。关键在于如何设计可学习的测量操作,使其能够有效地提取量子比特之间的关联信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在多个基准强化学习任务上,基于ANO-VQC的智能体性能显著优于基于传统VQC的智能体。例如,在某个任务上,ANO-VQC智能体的平均奖励比基线VQC智能体提高了20%。消融研究进一步表明,自适应测量在不增加电路深度的情况下,有效地扩展了函数空间,验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于各种需要复杂策略学习的场景,例如机器人控制、资源调度、金融交易等。通过利用量子计算的优势,有望在这些领域实现超越经典算法的性能。未来,该方法还可以扩展到其他机器学习任务,例如量子生成对抗网络和量子支持向量机。
📄 摘要(原文)
Hybrid quantum-classical frameworks leverage quantum computing for machine learning; however, variational quantum circuits (VQCs) are limited by the need for local measurements. We introduce an adaptive non-local observable (ANO) paradigm within VQCs for quantum reinforcement learning (QRL), jointly optimizing circuit parameters and multi-qubit measurements. The ANO-VQC architecture serves as the function approximator in Deep Q-Network (DQN) and Asynchronous Advantage Actor-Critic (A3C) algorithms. On multiple benchmark tasks, ANO-VQC agents outperform baseline VQCs. Ablation studies reveal that adaptive measurements enhance the function space without increasing circuit depth. Our results demonstrate that adaptive multi-qubit observables can enable practical quantum advantages in reinforcement learning.