Offline Reinforcement Learning for Rotation Profile Control in Tokamaks
作者: Rohit Sonker, Hiro Josep Farre Kaga, Jiayu Chen, Andrew Rothstein, Ian Char, Ricardo Shousha, Egemen Kolemen, Jeff Schneider
分类: cs.LG
发布日期: 2026-05-07
💡 一句话要点
提出基于离线强化学习的托卡马克等离子体旋转剖面控制方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 托卡马克控制 等离子体物理 概率动力学模型 复杂系统控制 数据驱动控制
📋 核心要点
- 托卡马克等离子体旋转剖面控制面临高维状态空间、多执行器耦合及缺乏高保真动力学模拟器的核心挑战。
- 提出利用离线强化学习与基于模型的离线RL方法,通过历史数据训练概率动力学模型并生成轨迹进行策略优化。
- 在DIII-D托卡马克装置上的实机部署验证了该方法的可行性,实现了对复杂物理系统的有效控制。
📝 摘要(中文)
托卡马克装置是实现核聚变能的关键,但其内部复杂的控制问题仍具挑战性。等离子体旋转剖面的控制对提升装置的稳定性、约束性能及输运特性至关重要。由于该系统具有高维性、多执行器响应及对等离子体状态的高度依赖性,传统的控制方法难以实现全剖面精确控制。强化学习(RL)虽能处理复杂的多输入多输出交互,但因缺乏高保真模拟器而受限。本文研究了离线强化学习及离线基于模型的强化学习算法,仅利用DIII-D托卡马克的历史数据进行训练。通过构建等离子体动力学的概率模型生成训练轨迹,成功在DIII-D装置上部署了控制策略,并获得了良好的实验结果。本文总结了在复杂物理设备上利用有限历史数据训练并部署RL策略的关键挑战与洞察。
🔬 方法详解
问题定义:论文旨在解决托卡马克装置中等离子体旋转剖面的精确控制问题。现有痛点在于系统动力学极其复杂,且缺乏能够准确模拟旋转剖面演化的物理模拟器,导致传统的基于模型控制或在线强化学习难以直接应用。
核心思路:采用离线强化学习(Offline RL)范式,完全依赖历史实验数据进行策略学习。通过构建基于概率的动力学模型(Probabilistic Dynamics Model)来模拟环境,从而在离线状态下生成丰富的训练轨迹,弥补了缺乏高保真模拟器的缺陷。
技术框架:整体流程分为数据预处理、动力学模型训练、离线策略优化三个阶段。首先利用历史实验数据训练一个概率模型以预测下一时刻的旋转剖面;随后,利用该模型作为环境模拟器,通过离线RL算法(如Conservative Q-Learning等)训练控制策略;最后将训练好的策略部署至DIII-D装置。
关键创新:核心创新在于将离线RL与概率动力学建模相结合,解决了在数据稀缺且无精确模拟器场景下,如何安全有效地训练复杂物理系统控制策略的难题,实现了从数据驱动到实机部署的闭环。
关键设计:采用了概率动力学模型来量化预测的不确定性,这有助于在离线训练中规避分布外(OOD)动作带来的风险;同时,策略训练过程中引入了保守性约束,确保在有限历史数据覆盖范围内进行策略更新,防止在未探索区域产生不稳定的控制指令。
🖼️ 关键图片
📊 实验亮点
实验在DIII-D托卡马克装置上进行了实机部署,验证了算法的有效性。研究表明,仅利用有限的历史实验数据,通过概率动力学模型辅助的离线RL策略,能够成功实现对等离子体旋转剖面的有效调节。该成果展示了数据驱动方法在处理高维、非线性物理系统控制任务中的巨大潜力,为未来核聚变装置的智能化控制提供了重要参考。
🎯 应用场景
该研究主要应用于受控核聚变装置的等离子体控制,对于提升托卡马克装置的运行稳定性、能量约束时间和输运效率具有重要价值。此外,该方法论可推广至其他复杂工业过程控制,如化工反应堆、大型电力系统等缺乏精确物理模型但拥有丰富历史运行数据的领域。
📄 摘要(原文)
Tokamaks remain leading candidates for achieving practical fusion energy, yet many important control problems inside these devices are still difficult or unsolved. One such challenge is controlling the plasma rotation profile, which strongly influences stability, confinement, and transport. While the average rotation can be controlled, controlling the full profile is challenging due to high dimensionality, response to multiple actuators and dependence on plasma condition. Learning-based control methods, such as reinforcement learning (RL), provide a potential solution to this challenging problem with ability to model complex interactions leading to effective multi-input multi-output control. However, learning such policies is challenging due to the lack of accurate simulators that can model the rotation profile dynamics. In this work, we investigate the use of offline RL and offline model-based RL algorithms for rotation profile control, training them solely on historical data from the DIII-D tokamak. Our final method uses probabilistic models of plasma dynamics to generate rollouts for RL training. We deploy this policy on the DIII-D Tokamak and observe promising real-world results. We conclude by highlighting key challenges and insights from training and deploying an RL policy on a complex physical device while using only limited past data.