Adaptive Reinforcement Learning for Robust Open Quantum System Control: A Multi-Task Framework with Temporal Optimization

作者: Haftu W. Fentaw, Steve Campbell, Simon Caton

分类: quant-ph, cs.LG

发布日期: 2026-05-26

💡 一句话要点

提出多任务SAC强化学习框架，用于鲁棒开放量子系统控制，实现时序优化。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 量子控制 强化学习 多任务学习 软演员-评论家 鲁棒性 开放量子系统 时序优化

📋 核心要点

现有量子控制方法在噪声环境下鲁棒性不足，难以适应不同哈密顿量。
提出多任务SAC强化学习框架，同时优化控制脉冲序列、演化时间和脉冲段数。
实验证明，该方法在噪声环境中具有高保真度和鲁棒性，优于GRAPE优化控制。

📝 摘要（中文）

本文提出了一种多任务软演员-评论家(SAC)强化学习框架，用于跨多种哈密顿量的开放系统量子控制。该框架能够学习最优脉冲序列，同时发现特定问题的演化时间T和控制脉冲段数N。在51种哈密顿量变体的实验结果表明，该多任务SAC模型能够生成控制脉冲，在环境噪声下，以高保真度驱动系统从初始状态转移到目标状态，为适用于真实噪声量子设备的通用量子控制奠定了基础。通过逐步扩展训练哈密顿量集，我们研究了使用给定数量的样本哈密顿量训练的单个多任务模型是否能够成功完成来自相同哈密顿量空间但在训练期间未遇到的哈密顿量的状态转移任务。此外，我们的鲁棒性不保真度测量(RIM)分析表明，与GRAPE优化的控制相比，SAC训练的策略对脉冲幅度扰动和退相干率变化表现出更强的鲁棒性。

🔬 方法详解

问题定义：量子系统控制旨在通过设计特定的控制脉冲，将系统从初始状态转移到目标状态。然而，实际量子设备受到环境噪声的影响，传统的控制方法（如GRAPE）对噪声敏感，且难以适应不同的哈密顿量。此外，确定最佳的演化时间和控制脉冲段数也是一个挑战。

核心思路：本文的核心思路是利用多任务强化学习，同时学习控制策略、演化时间和脉冲段数。通过将不同哈密顿量下的控制任务视为不同的任务，SAC算法能够学习到通用的控制策略，从而提高对噪声和哈密顿量变化的鲁棒性。同时，将演化时间和脉冲段数作为可学习的参数，能够自适应地优化控制过程。

技术框架：该框架基于软演员-评论家(SAC)算法，采用多任务学习的方式。整体流程如下：1) 定义不同的哈密顿量作为不同的任务；2) 使用SAC算法训练一个策略网络和一个价值网络，策略网络输出控制脉冲序列，价值网络评估当前状态的价值；3) 将演化时间和脉冲段数作为策略网络的输出，通过强化学习进行优化；4) 使用鲁棒性不保真度测量(RIM)评估控制策略的鲁棒性。

关键创新：该论文的关键创新在于：1) 提出了一种多任务SAC强化学习框架，能够同时学习控制策略、演化时间和脉冲段数；2) 将演化时间和脉冲段数作为可学习的参数，实现了时序优化；3) 提出了鲁棒性不保真度测量(RIM)，用于评估控制策略的鲁棒性。与现有方法的本质区别在于，该方法能够自适应地学习控制策略，从而提高对噪声和哈密顿量变化的鲁棒性。

关键设计：该框架的关键设计包括：1) 使用SAC算法，平衡了探索和利用，提高了学习效率；2) 使用多任务学习，共享了不同任务之间的知识，提高了泛化能力；3) 将演化时间和脉冲段数作为策略网络的输出，使用tanh激活函数将其限制在合理的范围内；4) 使用RIM作为奖励函数的一部分，鼓励学习鲁棒的控制策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该多任务SAC模型能够生成控制脉冲，在环境噪声下，以高保真度驱动系统从初始状态转移到目标状态。与GRAPE优化的控制相比，SAC训练的策略对脉冲幅度扰动和退相干率变化表现出更强的鲁棒性。在51种哈密顿量变体的实验中验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种量子信息处理任务，如量子计算、量子通信和量子传感。通过提高量子控制的鲁棒性和自适应性，该方法有望推动量子技术在现实噪声环境中的应用，例如构建更稳定的量子计算机和更精确的量子传感器。

📄 摘要（原文）

We present a Multi-task Soft Actor-Critic (SAC) Reinforcement Learning framework designed for open-system quantum control across diverse Hamiltonians, which learns optimal pulse sequences while simultaneously discovering problem-specific evolution time T and number of control pulse segments N. Experimental results across 51 Hamiltonian variations demonstrate that the multi-task SAC model is able to generate control pulses that can drive a system, under environment noise, from its initial state to its target state with high fidelities, establishing essential foundations for universal quantum control applicable to realistic noisy quantum devices. Through progressive expansion of the training Hamiltonian set, we investigate if a single multi-task model trained using a given number of sample Hamiltonians can successfully accomplish state-transfer tasks for Hamiltonians drawn from the same Hamiltonian space but not encountered during training. In addition, our Robustness Infidelity Measure (RIM) analysis reveals that SAC trained policies exhibit superior robustness to pulse amplitude perturbations and decoherence rate variations compared to GRAPE-optimized controls.

Adaptive Reinforcement Learning for Robust Open Quantum System Control: A Multi-Task Framework with Temporal Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理