CO-MAP: A Reinforcement Learning Approach to the Qubit Allocation Problem

📄 arXiv: 2605.13638v1 📥 PDF

作者: Ankit Kulshrestha, Xiaoyuan Liu

分类: quant-ph, cs.LG

发布日期: 2026-05-13

备注: Under review at NeurIPS'26


💡 一句话要点

提出CO-MAP以解决量子比特分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 量子计算 量子编译 强化学习 组合优化 比特映射 SWAP门 局部搜索

📋 核心要点

  1. 现有的量子比特映射方法多采用随机或启发式策略,难以有效减少SWAP门的开销。
  2. 本文通过将量子比特映射问题形式化为组合优化问题,利用强化学习策略进行求解,并引入局部搜索算法进行后处理。
  3. 在MQTBench和Queko电路等真实数据集上,提出的方法在SWAP开销上实现了65-85%的显著减少。

📝 摘要(中文)

量子编译器是量子计算流程中的关键组成部分,它允许抽象量子电路在物理量子计算机上运行。在量子编译中,一个重要的子问题是逻辑到物理量子比特的映射。传统方法通常采用随机或启发式分配,旨在最小化量子电路中的额外SWAP门开销。本文提出了一种基于强化学习的组合优化方法来解决量子比特映射问题,并提出了一种基于局部搜索的后处理算法以进一步减少开销。实验结果表明,与现有量子编译器相比,训练后的策略在不同真实数据集上实现了65-85%的SWAP开销减少。

🔬 方法详解

问题定义:本文解决的是量子比特映射问题,现有方法在减少SWAP门开销方面效果不佳,无法满足高效量子计算的需求。

核心思路:论文通过将量子比特映射问题转化为组合优化问题,利用强化学习训练策略来寻找最优映射,从而有效降低SWAP门的使用。

技术框架:整体方法包括两个主要模块:首先是强化学习策略的训练,其次是基于局部搜索的后处理算法,以进一步优化映射结果。

关键创新:最重要的创新在于将量子比特映射问题形式化为组合优化问题,并通过强化学习进行求解,这与传统的随机或启发式方法有本质区别。

关键设计:在设计中,强化学习的损失函数和网络结构经过精心调整,以确保策略能够有效学习到最优的比特映射,同时局部搜索算法的参数设置也经过优化,以进一步提升性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,提出的CO-MAP方法在MQTBench和Queko电路上实现了65-85%的SWAP开销减少,相较于现有的量子编译器技术,表现出显著的性能提升,验证了方法的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括量子计算机的编译优化、量子算法的高效实现以及量子电路设计等。通过有效的量子比特映射,可以显著提升量子计算的效率,推动量子计算技术的实际应用和发展。

📄 摘要(原文)

A quantum compiler is a critical piece in the quantum computing pipeline since it allows an abstract quantum circuit to be run on a physical quantum computer. One extremely important subproblem in quantum compilation is the generation of a logical to physical qubit mapping. Typically in quantum compilers this step is either implemented as a random or a heuristic based assignment that aims to minimize additional (SWAP) gate overhead in the quantum circuit. In this paper, we present an alternative approach to solving the qubit mapping problem. Specifically, we formulate the qubit mapping problem with a combinatorial optimization (CO) objective. We then present a method to find a solution to the CO problem by training a reinforcement learning (RL) policy. We also propose a local search based post-processing algorithm to further reduce the overhead. Our results show a dramatic improvement over conventional techniques in reducing the number of SWAPs. On different real world datasets like MQTBench and Queko circuits, our trained policy achieves a \textbf{65-85\%} reduction in SWAP overhead when compared to existing quantum compilers.