Multistep Criticality Search and Power Shaping in Microreactors with Reinforcement Learning

📄 arXiv: 2406.15931v1 📥 PDF

作者: Majdi I. Radaideh, Leo Tunkle, Dean Price, Kamal Abdulraheem, Linyu Lin, Moutaz Elias

分类: eess.SY, cs.CE, cs.LG, stat.AP

发布日期: 2024-06-22

备注: 15 pages, 3 figures, and 2 tables


💡 一句话要点

提出基于强化学习的微型反应堆多步临界搜索与功率整形方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 微型反应堆 自主控制 近端策略优化 优势演员-评论家 核反应堆控制 数字孪生 临界搜索

📋 核心要点

  1. 先进反应堆,特别是微型反应堆,面临降低运营和维护成本的关键挑战,需要开发稳健的自主控制算法。
  2. 论文提出使用强化学习(RL)方法,通过PPO和A2C算法,学习微型反应堆的最佳控制鼓位置,以实现临界状态和对称功率分布。
  3. 实验结果表明,PPO算法能够有效识别最佳控制鼓位置,将六分体功率倾斜率控制在安全范围内,并维持堆芯的临界状态。

📝 摘要(中文)

本文提出了一种利用强化学习(RL)进行核微型反应堆智能控制的方法。该方法使用近端策略优化(PPO)和优势演员-评论家(A2C)这两种先进的深度强化学习技术,基于西屋eVinci™设计的微型反应堆高保真模拟进行训练。利用Serpent模型生成关于控制鼓位置、堆芯临界和堆芯功率分布的数据,用于训练前馈神经网络代理模型。然后,该代理模型指导PPO和A2C控制策略,以确定各种反应堆燃耗状态下的最佳控制鼓位置,确保临界堆芯条件和所有六个堆芯部分的对称功率分布。结果表明,PPO在识别最佳控制鼓位置方面表现出色,实现了约1.002的六分体功率倾斜率(在<1.02的限制范围内),并将临界度维持在10 pcm范围内。A2C在所有燃耗步骤中的性能指标均不如PPO。此外,结果突出了训练良好的RL控制策略快速识别控制动作的能力,这为通过数字孪生实现实时自主控制提供了一种有前景的方法。

🔬 方法详解

问题定义:微型反应堆的运行需要精确控制,以确保安全和高效。现有方法可能依赖于人工干预或预设规则,难以适应反应堆运行过程中的复杂变化,尤其是在不同燃耗状态下维持临界状态和均匀功率分布是一个挑战。现有方法的痛点在于缺乏自主性和实时优化能力。

核心思路:论文的核心思路是利用强化学习(RL)算法,通过与反应堆模拟环境的交互,学习最优的控制策略。RL agent通过不断试错,学习在不同燃耗状态下调整控制鼓位置,以实现堆芯临界和功率分布的优化。这种方法的核心在于将反应堆控制问题转化为一个马尔可夫决策过程,并通过RL算法求解。

技术框架:整体框架包括以下几个主要模块:1) Serpent模型:用于生成反应堆的物理数据,包括控制鼓位置、堆芯临界和功率分布。2) 神经网络代理模型:利用Serpent模型生成的数据训练前馈神经网络,作为反应堆的快速模拟器。3) 强化学习Agent:使用PPO或A2C算法,与代理模型交互,学习最优控制策略。4) 控制策略评估:评估RL agent学习到的控制策略在不同燃耗状态下的性能。

关键创新:最重要的技术创新点在于将强化学习应用于微型反应堆的控制问题,并利用高保真模拟数据训练RL agent。与传统的控制方法相比,该方法具有更强的自适应性和优化能力,能够实现实时自主控制。此外,使用神经网络代理模型加速了RL agent的训练过程。

关键设计:论文使用了PPO和A2C两种RL算法,并针对反应堆控制问题进行了优化。关键参数包括学习率、折扣因子、探索率等。神经网络代理模型的结构也需要仔细设计,以保证其能够准确地模拟反应堆的物理行为。损失函数的设计需要考虑堆芯临界和功率分布的优化目标。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,PPO算法在识别最佳控制鼓位置方面表现出色,实现了约1.002的六分体功率倾斜率(在<1.02的限制范围内),并将临界度维持在10 pcm范围内。相比之下,A2C算法的性能略逊一筹。这些结果验证了强化学习在微型反应堆控制中的有效性,并为实现实时自主控制提供了有力的支持。

🎯 应用场景

该研究成果可应用于先进核反应堆的自主控制系统,尤其是在微型反应堆领域具有重要应用价值。通过强化学习实现的自主控制能够降低运营成本,提高反应堆的安全性和可靠性。此外,该方法还可以推广到其他复杂系统的控制问题,例如电力系统、智能制造等。

📄 摘要(原文)

Reducing operation and maintenance costs is a key objective for advanced reactors in general and microreactors in particular. To achieve this reduction, developing robust autonomous control algorithms is essential to ensure safe and autonomous reactor operation. Recently, artificial intelligence and machine learning algorithms, specifically reinforcement learning (RL) algorithms, have seen rapid increased application to control problems, such as plasma control in fusion tokamaks and building energy management. In this work, we introduce the use of RL for intelligent control in nuclear microreactors. The RL agent is trained using proximal policy optimization (PPO) and advantage actor-critic (A2C), cutting-edge deep RL techniques, based on a high-fidelity simulation of a microreactor design inspired by the Westinghouse eVinci\textsuperscript{TM} design. We utilized a Serpent model to generate data on drum positions, core criticality, and core power distribution for training a feedforward neural network surrogate model. This surrogate model was then used to guide a PPO and A2C control policies in determining the optimal drum position across various reactor burnup states, ensuring critical core conditions and symmetrical power distribution across all six core portions. The results demonstrate the excellent performance of PPO in identifying optimal drum positions, achieving a hextant power tilt ratio of approximately 1.002 (within the limit of $<$ 1.02) and maintaining criticality within a 10 pcm range. A2C did not provide as competitive of a performance as PPO in terms of performance metrics for all burnup steps considered in the cycle. Additionally, the results highlight the capability of well-trained RL control policies to quickly identify control actions, suggesting a promising approach for enabling real-time autonomous control through digital twins.