Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam Intensity Control in Mu2e
作者: Chenwei Xu, Jerry Yao-Chieh Hu, Aakaash Narayanan, Mattson Thieme, Vladimir Nagaslaev, Mark Austin, Jeremy Arnold, Jose Berlioz, Pierrick Hanlet, Aisha Ibrahim, Dennis Nicklaus, Jovan Mitrevski, Jason Michael St. John, Gauri Pradhan, Andrea Saewert, Kiyomi Seiya, Brian Schupbach, Randy Thurman-Keup, Nhan Tran, Rui Shi, Seda Ogrenci, Alexis Maya-Isabelle Shuping, Kyle Hazelwood, Han Liu
分类: cs.LG, cs.AI, physics.acc-ph
发布日期: 2023-12-28
备注: 10 pages, accepted at NeurIPS 2023 ML4Phy Workshop
💡 一句话要点
提出基于神经PID策略的PPO算法,用于Mu2e实验中的质子束强度控制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 质子束控制 强化学习 近端策略优化 PID控制 神经网络 Mu2e实验 加速器控制
📋 核心要点
- Mu2e实验需要精确控制质子束强度,传统PID控制器难以适应复杂动态变化,导致强度分布不均匀。
- 论文将PID控制器与神经网络结合,利用PPO算法进行训练,实现对PID参数的自适应调整,优化质子束强度控制策略。
- 实验结果表明,该方法在溢出占空比(SDF)上优于传统PID控制器,提升了13.6%,为实时应用奠定基础。
📝 摘要(中文)
本文提出了一种新颖的近端策略优化(PPO)算法,旨在解决费米国家加速器实验室Muon to Electron Conversion Experiment (Mu2e)中保持均匀质子束强度的问题。我们的主要目标是调节溢出过程,以确保一致的强度分布,最终目标是创建一个能够提供实时反馈和校准溢出调节系统(SRS)参数(毫秒级)的自动化控制器。我们将Mu2e加速器系统视为适用于强化学习(RL)的马尔可夫决策过程,利用PPO来减少偏差并增强训练稳定性。我们方法的一个关键创新是将神经比例-积分-微分(PID)控制器集成到策略函数中,从而使溢出占空比(SDF)显著提高了13.6%,比当前的PID控制器基线性能提高了1.6%。本文介绍了基于Mu2e加速器可微模拟器的初步离线结果,为实时实现和应用奠定了基础,代表了Mu2e实验自动化质子束强度控制的关键一步。
🔬 方法详解
问题定义:Mu2e实验中,需要精确控制质子束的强度,使其在特定时间内保持均匀。传统的PID控制器虽然被广泛使用,但在面对加速器系统复杂的动态变化和非线性特性时,其性能会受到限制,难以实现对质子束强度的高精度控制。这会导致强度分布不均匀,影响实验结果的准确性。现有方法缺乏自适应性和实时性,无法根据系统状态动态调整控制参数。
核心思路:论文的核心思路是将传统的PID控制器与神经网络相结合,构建一个“神经PID”控制器。神经网络负责学习PID控制器的参数,使其能够根据系统的当前状态自适应地调整。同时,利用近端策略优化(PPO)算法来训练神经网络,PPO算法具有良好的稳定性和收敛性,能够有效地优化控制策略。这种设计旨在结合PID控制器的稳定性和神经网络的自适应性,从而实现对质子束强度更精确的控制。
技术框架:整体框架是将Mu2e加速器系统建模为一个马尔可夫决策过程(MDP)。PPO算法用于训练一个策略网络,该策略网络输出神经PID控制器的参数。系统状态作为输入,经过策略网络后,输出PID参数,然后PID控制器根据这些参数控制加速器系统。通过不断地与环境交互,PPO算法不断优化策略网络,从而提高控制性能。该框架包含以下主要模块:环境模拟器(Mu2e加速器)、策略网络(神经PID控制器)、PPO算法。
关键创新:最重要的技术创新点在于将PID控制器“神经化”,即使用神经网络来动态调整PID控制器的参数。与传统的固定参数PID控制器相比,神经PID控制器能够根据系统的状态自适应地调整控制参数,从而更好地应对加速器系统的复杂动态变化。此外,使用PPO算法进行训练,保证了训练的稳定性和收敛性,避免了传统强化学习算法中常见的训练不稳定问题。这种结合PID控制器和神经网络的方法,充分利用了两者的优点,实现了更高效的控制。
关键设计:策略网络(神经PID控制器)的结构未知,但其输出是PID控制器的三个参数(比例增益Kp、积分时间Ti、微分时间Td)。PPO算法使用标准的损失函数,包括策略梯度损失、价值函数损失和熵正则化项。环境模拟器是基于Mu2e加速器的可微模型,允许使用梯度下降方法进行优化。具体的参数设置,如PPO的学习率、折扣因子、裁剪参数等,以及神经网络的结构和激活函数等,在论文中可能没有详细说明,属于未知信息。
📊 实验亮点
实验结果表明,基于神经PID策略的PPO算法在Mu2e加速器系统的质子束强度控制中取得了显著的性能提升。与传统的PID控制器相比,该方法使溢出占空比(SDF)提高了13.6%,并且比当前的PID控制器基线性能提高了1.6%。这些结果表明,该方法能够有效地提高质子束强度控制的精度和稳定性,为Mu2e实验的顺利进行提供了保障。
🎯 应用场景
该研究成果可应用于其他加速器系统的束流控制,以及需要高精度、实时控制的工业过程。例如,可以用于同步辐射光源、自由电子激光等科学装置的束流稳定,以及化工、冶金等行业的生产过程优化,提高产品质量和生产效率。未来,该方法有望推广到更复杂的控制系统,实现更高级别的自动化和智能化。
📄 摘要(原文)
We introduce a novel Proximal Policy Optimization (PPO) algorithm aimed at addressing the challenge of maintaining a uniform proton beam intensity delivery in the Muon to Electron Conversion Experiment (Mu2e) at Fermi National Accelerator Laboratory (Fermilab). Our primary objective is to regulate the spill process to ensure a consistent intensity profile, with the ultimate goal of creating an automated controller capable of providing real-time feedback and calibration of the Spill Regulation System (SRS) parameters on a millisecond timescale. We treat the Mu2e accelerator system as a Markov Decision Process suitable for Reinforcement Learning (RL), utilizing PPO to reduce bias and enhance training stability. A key innovation in our approach is the integration of a neuralized Proportional-Integral-Derivative (PID) controller into the policy function, resulting in a significant improvement in the Spill Duty Factor (SDF) by 13.6%, surpassing the performance of the current PID controller baseline by an additional 1.6%. This paper presents the preliminary offline results based on a differentiable simulator of the Mu2e accelerator. It paves the groundwork for real-time implementations and applications, representing a crucial step towards automated proton beam intensity control for the Mu2e experiment.