SQARL: A Size-Agnostic Reinforcement Learning approach for Circuit Allocation in Distributed Quantum Architectures
作者: Víctor Carballo, Júlia López-Closa, Mario Martin
分类: cs.LG
发布日期: 2026-05-26
💡 一句话要点
提出SQARL:一种规模无关的强化学习方法,用于分布式量子架构中的电路分配
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 量子计算 分布式量子架构 量子比特分配 强化学习 Transformer 深度学习 电路优化
📋 核心要点
- 现有量子比特分配方法,如HQA,虽性能优异,但启发式算法难以进一步优化,强化学习方法则缺乏对不同硬件拓扑的适应性,需要针对性训练。
- 论文提出一种基于Transformer的强化学习架构SQARL,无需重新训练即可处理任意数量的量子比特和核心,提升了对不同量子硬件拓扑的适应性。
- 实验结果表明,SQARL在电路分配任务上优于先前的强化学习方法,并缩小了与HQA之间的差距,在特定电路中甚至超越了HQA。
📝 摘要(中文)
量子处理器的扩展目前受到退相干和串扰等技术挑战的限制。随着量子比特数量的增加,干扰会增加计算噪声。分布式量子计算通过互连更小、更易于处理的量子处理器(核心)来解决这些限制,但也带来了最小化缓慢且容易出错的核间通信的挑战。在核心之间分配量子电路,同时最小化通信成本的任务被称为量子比特分配问题。本研究侧重于开发一种深度学习方法来解决这个问题,强调对量子硬件拓扑的灵活性,并提高最先进的性能。结果表明,所提出的方法在常见电路上的分配成本相对于HQA降低了33%,对于随机电路平均降低了25%。
🔬 方法详解
问题定义:论文旨在解决分布式量子计算中的量子比特分配问题。现有方法,如启发式算法HQA,虽然性能不错,但依赖人工设计的规则,难以进一步优化。而现有的强化学习方法缺乏灵活性,需要针对特定的硬件配置进行重新训练,难以适应量子硬件拓扑的变化。
核心思路:论文的核心思路是利用Transformer架构的强大表征能力和泛化能力,构建一个规模无关的强化学习模型。该模型能够处理任意数量的量子比特和核心,无需针对特定硬件拓扑进行重新训练,从而提高了算法的灵活性和适应性。
技术框架:SQARL的整体框架是一个典型的强化学习流程,包括环境(量子电路和分布式量子架构)、智能体(基于Transformer的策略网络)和奖励函数(分配成本)。智能体通过与环境交互,学习最优的量子比特分配策略。具体来说,智能体接收量子电路和硬件拓扑作为输入,输出量子比特到核心的分配方案。环境根据分配方案计算通信成本,并将其作为奖励反馈给智能体。
关键创新:SQARL的关键创新在于其基于Transformer的策略网络。Transformer架构具有强大的序列建模能力和并行计算能力,能够有效地处理量子电路中的量子比特之间的依赖关系,并生成高质量的分配方案。此外,Transformer的自注意力机制使得模型能够关注到重要的量子比特和核心,从而提高了分配效率。
关键设计:SQARL使用Actor-Critic框架进行训练。Actor网络基于Transformer,负责生成量子比特分配策略。Critic网络评估当前策略的价值。奖励函数设计为分配方案的通信成本的负值,鼓励智能体学习最小化通信成本的分配策略。论文还采用了多种训练技巧,如经验回放和目标网络,以提高训练的稳定性和收敛速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SQARL在量子比特分配任务上显著优于先前的强化学习方法,并缩小了与启发式算法HQA之间的差距。对于Cuccaro Adder电路,SQARL的分配成本相对于HQA降低了33%,对于随机电路,平均降低了25%。这些结果表明,基于学习的方法可以有效地匹配甚至超越人工设计的启发式算法的性能。
🎯 应用场景
该研究成果可应用于实际的分布式量子计算平台,优化量子电路在不同量子处理器核心上的分配,从而降低通信开销,提高量子计算的效率和可靠性。这对于推动量子计算在科学研究、药物发现、材料设计等领域的应用具有重要意义,并加速量子计算机的实用化进程。
📄 摘要(原文)
The scaling of quantum processors is currently limited by technical challenges such as decoherence and cross-talk. As the number of qubits grows, interference increases the computational noise. Distributed quantum computing addresses these limitations by interconnecting smaller, easier-to-handle quantum processors (cores), but it introduces the challenge of minimizing slow, error-prone inter-core communication. The task of distributing quantum circuits across cores while minimizing communication costs is known as the Qubit Allocation problem. This work focuses on developing a deep learning approach to this problem, emphasizing flexibility to quantum hardware topology and improving state-of-the-art performance. Heuristic and non-learning algorithms, such as the Hungarian Qubit Allocation (HQA), currently represent the state of the art. Reinforcement Learning (RL) approaches leverage learned allocation policies but often lack flexibility, requiring retraining when hardware configurations change, and they fall short of the solution quality achieved by non-learning methods. However, learning mechanisms could outperform human-crafted heuristics. To overcome these limitations, this work proposes a flexible, transformer-based architecture that can handle arbitrary numbers of qubits and cores without retraining. Results show that the trained policy consistently outperforms the previous RL state of the art and narrows the gap between RL and HQA for the most common circuits. It achieves a 33% reduction in allocation cost relative to the HQA for the Cuccaro Adder and 25% on average for random circuits. These findings show that learning-based approaches can effectively match the performance of hand-crafted heuristics, a crucial step towards their application in real-world scenarios.