Nuclear Microreactor Control with Deep Reinforcement Learning
作者: Leo Tunkle, Kamal Abdulraheem, Linyu Lin, Majdi I. Radaideh
分类: eess.SY, cs.LG, stat.ML
发布日期: 2025-03-31
备注: 28 pages, 11 figures, 2 tables
💡 一句话要点
提出基于深度强化学习的核微反应堆控制方法,优化负载跟踪性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 核微反应堆控制 多智能体强化学习 负载跟踪 自主控制
📋 核心要点
- 核微反应堆的经济可行性依赖于通过自主控制降低运营成本,尤其是在与可再生能源等其他能源系统协同运行时。
- 本研究利用深度强化学习,针对微反应堆的控制鼓进行实时控制,旨在提升负载跟踪性能,并降低训练成本。
- 实验结果表明,RL控制器在负载跟踪性能上可与PID控制器媲美甚至更优,且在噪声环境下表现出更强的鲁棒性。
📝 摘要(中文)
本研究探索了深度强化学习(RL)在微反应堆实时控制中的应用,重点关注负载跟踪场景下的性能。利用包含热反馈和氙反馈的点堆动力学模型,首先使用单输出RL智能体建立基线,然后将其与传统的比例-积分-微分(PID)控制器进行比较。结果表明,RL控制器(包括单智能体和多智能体RL框架)在各种负载跟踪场景中可以实现与传统PID控制相似甚至更优越的性能。在短时瞬态过程中,RL智能体能够降低跟踪误差率。在氙反馈成为主要因素的300分钟扩展负载跟踪场景中,PID保持了更好的精度,但RL仍然保持在1%的误差范围内,尽管仅在短时场景中进行了训练。这突出了RL强大的泛化和外推能力,从而显著降低了训练成本并减少了过拟合。此外,当控制扩展到多个控制鼓时,MARL能够实现独立的控制鼓控制,并保持反应堆的对称性约束,而不会牺牲性能——这是标准单智能体RL无法学习的目标。我们还发现,随着添加到功率测量中的高斯噪声水平的增加,RL控制器能够保持比PID更低的误差率,并且控制工作量更少。
🔬 方法详解
问题定义:核微反应堆的控制目标是精确跟踪功率需求,同时保证反应堆的安全稳定运行。传统PID控制方法在复杂工况下可能难以达到最优性能,且需要人工调参。此外,对于多个控制鼓的反应堆,如何实现独立控制并维持反应堆对称性是一个挑战。
核心思路:利用深度强化学习(RL)的自学习能力,训练智能体学习最优的控制策略,从而实现对反应堆的精确控制。通过设计合适的奖励函数,引导智能体学习满足安全约束和性能指标的控制策略。对于多控制鼓的情况,采用多智能体强化学习(MARL),实现独立控制并维持反应堆对称性。
技术框架:整体框架包括反应堆动力学模型、RL智能体和环境交互模块。反应堆动力学模型采用点堆动力学模型,考虑了热反馈和氙反馈效应。RL智能体采用深度神经网络作为策略网络,输入为反应堆的状态信息(如功率、温度等),输出为控制鼓的位置。环境交互模块负责将智能体的控制指令作用于反应堆模型,并返回新的状态和奖励信号。
关键创新:1. 将深度强化学习应用于核微反应堆的控制,实现了自主学习的控制策略。2. 提出了基于MARL的多控制鼓控制方法,实现了独立控制并维持反应堆对称性。3. 验证了RL控制器在噪声环境下的鲁棒性,以及在长时瞬态过程中的泛化能力。
关键设计:奖励函数的设计至关重要,需要综合考虑功率跟踪误差、控制动作的平滑性以及安全约束。策略网络采用多层感知机结构,输入层神经元数量取决于状态向量的维度,输出层神经元数量取决于控制动作的维度。训练算法采用Actor-Critic算法,例如DDPG或TD3。为了保证训练的稳定性,采用了经验回放和目标网络等技术。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在短时瞬态过程中,RL智能体能够降低跟踪误差率,优于PID控制器。在300分钟的扩展负载跟踪场景中,RL控制器虽然精度略低于PID,但仍保持在1%的误差范围内,展现了良好的泛化能力。在添加高斯噪声的情况下,RL控制器能够保持比PID更低的误差率,且控制工作量更少。
🎯 应用场景
该研究成果可应用于核微反应堆的自主控制系统,降低运营成本,提高反应堆的安全性和可靠性。此外,该方法还可以推广到其他类型的核反应堆控制,以及其他能源系统的优化控制,例如智能电网和分布式能源系统。
📄 摘要(原文)
The economic feasibility of nuclear microreactors will depend on minimizing operating costs through advancements in autonomous control, especially when these microreactors are operating alongside other types of energy systems (e.g., renewable energy). This study explores the application of deep reinforcement learning (RL) for real-time drum control in microreactors, exploring performance in regard to load-following scenarios. By leveraging a point kinetics model with thermal and xenon feedback, we first establish a baseline using a single-output RL agent, then compare it against a traditional proportional-integral-derivative (PID) controller. This study demonstrates that RL controllers, including both single- and multi-agent RL (MARL) frameworks, can achieve similar or even superior load-following performance as traditional PID control across a range of load-following scenarios. In short transients, the RL agent was able to reduce the tracking error rate in comparison to PID. Over extended 300-minute load-following scenarios in which xenon feedback becomes a dominant factor, PID maintained better accuracy, but RL still remained within a 1% error margin despite being trained only on short-duration scenarios. This highlights RL's strong ability to generalize and extrapolate to longer, more complex transients, affording substantial reductions in training costs and reduced overfitting. Furthermore, when control was extended to multiple drums, MARL enabled independent drum control as well as maintained reactor symmetry constraints without sacrificing performance -- an objective that standard single-agent RL could not learn. We also found that, as increasing levels of Gaussian noise were added to the power measurements, the RL controllers were able to maintain lower error rates than PID, and to do so with less control effort.