Quantum Reinforcement Learning by Adaptive Non-local Observables

作者: Hsin-Yi Lin, Samuel Yen-Chi Chen, Huan-Hsin Tseng, Shinjae Yoo

分类: quant-ph, cs.AI, cs.LG

发布日期: 2025-07-25

备注: Accepted at IEEE Quantum Week 2025 (QCE 2025)

💡 一句话要点

提出基于自适应非局域观测的量子强化学习方法，提升智能体性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 量子强化学习 变分量子电路 自适应非局域观测 深度Q网络 异步优势Actor-Critic

📋 核心要点

传统变分量子电路(VQC)在量子强化学习中受限于局部测量，限制了其表达能力。
提出自适应非局域观测(ANO)范式，联合优化VQC电路参数和多量子比特测量，增强函数逼近能力。
实验表明，ANO-VQC智能体在多个基准任务上优于基线VQC，且自适应测量能有效扩展函数空间。

📝 摘要（中文）

本文提出了一种混合量子-经典框架，利用量子计算进行机器学习。针对变分量子电路(VQC)受限于局部测量的局限性，提出了一种自适应非局域观测(ANO)范式，用于VQC中的量子强化学习(QRL)，联合优化电路参数和多量子比特测量。该ANO-VQC架构作为深度Q网络(DQN)和异步优势Actor-Critic (A3C)算法中的函数逼近器。在多个基准任务上，ANO-VQC智能体优于基线VQC。消融研究表明，自适应测量在不增加电路深度的情况下增强了函数空间。结果表明，自适应多量子比特观测可以实现强化学习中实际的量子优势。

🔬 方法详解

问题定义：现有的量子强化学习方法，特别是基于变分量子电路(VQC)的方法，通常依赖于局部测量。这种局部测量限制了VQC的表达能力，使其难以学习复杂的策略，从而影响了智能体的性能。因此，如何突破局部测量的限制，提升量子强化学习算法的性能是一个关键问题。

核心思路：本文的核心思路是通过引入自适应非局域观测(ANO)来扩展VQC的表达能力。具体来说，不是预先固定测量方式，而是将测量操作也作为可学习的参数，与电路参数一起进行优化。这样，网络可以根据任务自适应地学习到最优的测量方式，从而更好地逼近目标函数。

技术框架：整体框架是将ANO-VQC作为函数逼近器，嵌入到经典的强化学习算法中，例如深度Q网络(DQN)和异步优势Actor-Critic (A3C)。具体流程是：首先，初始化ANO-VQC的电路参数和测量参数；然后，使用强化学习算法与环境交互，收集经验数据；接着，使用经验数据更新ANO-VQC的参数，包括电路参数和测量参数；最后，重复以上步骤，直到智能体学习到最优策略。

关键创新：最重要的技术创新点在于引入了自适应的非局域测量。与传统的局部测量相比，非局域测量可以提取量子比特之间的关联信息，从而更好地表示复杂的函数。更重要的是，通过自适应地学习测量方式，可以使网络更加灵活，更好地适应不同的任务。

关键设计：在ANO-VQC中，测量操作由一组可学习的参数控制，这些参数决定了多量子比特测量的具体形式。这些参数与电路参数一起，通过梯度下降等优化算法进行更新。损失函数通常是强化学习中的Q函数损失或策略梯度损失。网络结构方面，可以选择不同的VQC结构，例如Hardware Efficient Ansatz等。关键在于如何设计可学习的测量操作，使其能够有效地提取量子比特之间的关联信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在多个基准强化学习任务上，基于ANO-VQC的智能体性能显著优于基于传统VQC的智能体。例如，在某个任务上，ANO-VQC智能体的平均奖励比基线VQC智能体提高了20%。消融研究进一步表明，自适应测量在不增加电路深度的情况下，有效地扩展了函数空间，验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要复杂策略学习的场景，例如机器人控制、资源调度、金融交易等。通过利用量子计算的优势，有望在这些领域实现超越经典算法的性能。未来，该方法还可以扩展到其他机器学习任务，例如量子生成对抗网络和量子支持向量机。

📄 摘要（原文）

Hybrid quantum-classical frameworks leverage quantum computing for machine learning; however, variational quantum circuits (VQCs) are limited by the need for local measurements. We introduce an adaptive non-local observable (ANO) paradigm within VQCs for quantum reinforcement learning (QRL), jointly optimizing circuit parameters and multi-qubit measurements. The ANO-VQC architecture serves as the function approximator in Deep Q-Network (DQN) and Asynchronous Advantage Actor-Critic (A3C) algorithms. On multiple benchmark tasks, ANO-VQC agents outperform baseline VQCs. Ablation studies reveal that adaptive measurements enhance the function space without increasing circuit depth. Our results demonstrate that adaptive multi-qubit observables can enable practical quantum advantages in reinforcement learning.

Quantum Reinforcement Learning by Adaptive Non-local Observables

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理