Quantum entanglement provides a competitive advantage in adversarial games

📄 arXiv: 2603.10289v1 📥 PDF

作者: Peiyong Wang, Kieran Hymas, James Quach

分类: quant-ph, cs.AI, cs.LG

发布日期: 2026-03-11

备注: 22 pages, 5 figures


💡 一句话要点

量子纠缠提升对抗博弈强化学习性能:以Pong游戏为例

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 量子纠缠 强化学习 对抗博弈 特征提取 量子电路

📋 核心要点

  1. 传统强化学习在对抗环境中难以有效建模智能体间的动态交互,限制了性能。
  2. 论文提出一种量子-经典混合智能体,利用量子纠缠提取特征,提升对抗博弈中的表征学习能力。
  3. 实验表明,纠缠电路在Pong游戏中优于可分离电路和经典多层感知器,验证了量子纠缠的优势。

📝 摘要(中文)

在完全经典、竞争性环境中,独特的量子资源是否能带来优势,仍然是一个开放的问题。竞争性零和强化学习尤其具有挑战性,因为它需要对对立智能体之间的动态交互进行建模,而不是静态的状态-动作映射。本文进行了一项受控研究,旨在隔离量子纠缠在量子-经典混合智能体(在Pong游戏中训练)中的作用。一个8量子比特的参数化量子电路作为近端策略优化框架中的特征提取器,可以直接比较可分离电路和包含固定(CZ)或可训练(IsingZZ)纠缠门的架构。在参数数量相当的情况下,纠缠电路始终优于可分离电路,并且在低容量状态下,可以匹配或超过经典多层感知器基线。表征相似性分析进一步表明,纠缠电路学习到结构上不同的特征,这与改进的交互状态变量建模相一致。这些发现确立了纠缠作为竞争性强化学习中表征学习的功能资源。

🔬 方法详解

问题定义:论文旨在研究在竞争性强化学习环境中,量子纠缠是否能为智能体带来优势。现有方法,特别是经典强化学习方法,在建模智能体之间的复杂动态交互方面存在局限性,难以有效提取对抗博弈中的关键特征。

核心思路:论文的核心思路是利用量子纠缠来增强智能体的表征学习能力。量子纠缠能够捕捉经典方法难以捕捉的复杂关联,从而更好地建模智能体之间的交互。通过将量子电路作为特征提取器,智能体可以学习到更具区分性的特征表示,从而在对抗博弈中获得优势。

技术框架:整体框架采用量子-经典混合架构。首先,使用参数化的量子电路(PQC)作为特征提取器,将环境状态编码为量子态,并通过量子门操作提取特征。然后,将提取的特征输入到经典的近端策略优化(PPO)算法中进行策略学习。该框架允许直接比较不同类型的量子电路(可分离、固定纠缠、可训练纠缠)的性能。

关键创新:最重要的技术创新点在于将量子纠缠引入到对抗性强化学习的特征提取过程中。与传统的经典特征提取方法相比,量子纠缠能够捕捉更丰富的状态信息,并学习到更具表达能力的特征表示。此外,论文还比较了不同类型的纠缠门(CZ和IsingZZ)对性能的影响。

关键设计:论文使用了8量子比特的参数化量子电路作为特征提取器。电路结构包括单量子比特旋转门和两量子比特纠缠门。实验中比较了三种电路结构:可分离电路(无纠缠门)、固定纠缠电路(使用CZ门)和可训练纠缠电路(使用IsingZZ门)。使用PPO算法进行策略优化,并采用表征相似性分析来评估不同电路学习到的特征表示的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在Pong游戏中,使用纠缠电路的智能体始终优于使用可分离电路的智能体,且在低容量状态下,性能可以匹配甚至超过经典多层感知器基线。表征相似性分析显示,纠缠电路学习到的特征与可分离电路显著不同,表明纠缠有助于捕捉更丰富的状态信息。

🎯 应用场景

该研究成果可应用于各种对抗性博弈场景,如电子游戏、网络安全、金融交易等。通过利用量子纠缠增强智能体的表征学习能力,可以提升智能体在复杂竞争环境中的决策能力和性能。未来,该方法有望应用于更复杂的现实世界问题,例如多智能体协作和自动驾驶等。

📄 摘要(原文)

Whether uniquely quantum resources confer advantages in fully classical, competitive environments remains an open question. Competitive zero-sum reinforcement learning is particularly challenging, as success requires modelling dynamic interactions between opposing agents rather than static state-action mappings. Here, we conduct a controlled study isolating the role of quantum entanglement in a quantum-classical hybrid agent trained on Pong, a competitive Markov game. An 8-qubit parameterised quantum circuit serves as a feature extractor within a proximal policy optimisation framework, allowing direct comparison between separable circuits and architectures incorporating fixed (CZ) or trainable (IsingZZ) entangling gates. Entangled circuits consistently outperform separable counterparts with comparable parameter counts and, in low-capacity regimes, match or exceed classical multilayer perceptron baselines. Representation similarity analysis further shows that entangled circuits learn structurally distinct features, consistent with improved modelling of interacting state variables. These findings establish entanglement as a function resource for representation learning in competitive reinforcement learning.