Koopman-based surrogate modeling for reinforcement-learning-control of Rayleigh-Benard convection
作者: Tim Plotzki, Sebastian Peitz
分类: cs.LG, math.DS
发布日期: 2026-03-30
💡 一句话要点
提出基于Koopman算子的代理模型,加速强化学习控制Rayleigh-Bénard对流
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Koopman算子 代理模型 强化学习 流体控制 Rayleigh-Bénard对流
📋 核心要点
- 直接数值模拟计算成本高昂,限制了强化学习在流体控制中的应用。
- 利用线性循环自编码器网络构建代理模型,加速强化学习训练过程。
- 结合预训练和策略感知训练,在保证控制性能的同时,显著降低训练时间。
📝 摘要(中文)
由于控制流体动力学系统的强化学习(RL)智能体的训练需要对控制方程进行直接数值模拟(DNS),计算成本很高。代理模型通过以较低的计算成本逼近动力学提供了一种有希望的替代方案,但它们作为RL训练环境的可行性受到分布偏移的限制,因为策略会诱导代理训练数据未覆盖的状态分布。在这项工作中,我们研究了使用线性循环自编码器网络(LRAN)来加速基于RL的二维Rayleigh-Bénard对流控制。我们评估了两种训练策略:一种是在使用随机动作生成的预计算数据上训练的代理,另一种是使用从不断演变的策略收集的数据迭代训练的策略感知代理。我们的结果表明,虽然仅使用代理的训练会导致控制性能下降,但在预训练方案中将代理与DNS相结合可以恢复最先进的性能,同时将训练时间减少40%以上。我们证明了策略感知训练减轻了分布偏移的影响,从而能够在状态空间中与策略相关的区域进行更准确的预测。
🔬 方法详解
问题定义:论文旨在解决使用强化学习控制Rayleigh-Bénard对流时,由于直接数值模拟(DNS)计算成本过高而导致训练效率低下的问题。现有方法依赖于耗时的DNS,限制了强化学习在该领域的应用。代理模型虽然可以降低计算成本,但容易出现分布偏移,导致控制性能下降。
核心思路:论文的核心思路是利用Koopman算子理论,构建线性循环自编码器网络(LRAN)作为代理模型,以近似流体动力学系统。通过结合预训练和策略感知训练,缓解分布偏移问题,提高代理模型的预测精度和控制性能。
技术框架:整体框架包含以下几个主要阶段:1) 使用随机动作生成初始数据集,并训练初始代理模型;2) 使用强化学习算法训练控制策略,并使用该策略与环境交互,收集新的数据;3) 使用收集到的新数据更新代理模型,进行策略感知训练;4) 重复步骤2和3,直到控制策略收敛。此外,论文还探索了将代理模型与DNS相结合的预训练方案。
关键创新:论文的关键创新在于:1) 将Koopman算子理论应用于流体控制的代理模型构建,利用LRAN学习系统的线性表示;2) 提出策略感知训练方法,通过迭代更新代理模型,缓解分布偏移问题;3) 结合代理模型和DNS进行预训练,在保证控制性能的同时,显著降低训练时间。
关键设计:LRAN的网络结构包括编码器、Koopman层和解码器。编码器将高维状态映射到低维潜在空间,Koopman层学习潜在空间的线性动力学,解码器将潜在空间的状态映射回原始状态空间。损失函数包括重构误差和预测误差。策略感知训练通过最小化策略产生的状态分布与代理模型预测的状态分布之间的差异来缓解分布偏移。
🖼️ 关键图片
📊 实验亮点
实验结果表明,结合代理模型和DNS的预训练方案,能够在恢复最先进控制性能的同时,将训练时间减少40%以上。策略感知训练能够有效缓解分布偏移,提高代理模型在策略相关区域的预测精度。该方法在Rayleigh-Bénard对流控制问题上取得了显著的性能提升。
🎯 应用场景
该研究成果可应用于各种流体控制问题,例如湍流控制、热管理和飞行器设计。通过降低计算成本,该方法有望加速强化学习在复杂流体动力学系统中的应用,并为工程设计提供新的思路。
📄 摘要(原文)
Training reinforcement learning (RL) agents to control fluid dynamics systems is computationally expensive due to the high cost of direct numerical simulations (DNS) of the governing equations. Surrogate models offer a promising alternative by approximating the dynamics at a fraction of the computational cost, but their feasibility as training environments for RL is limited by distribution shifts, as policies induce state distributions not covered by the surrogate training data. In this work, we investigate the use of Linear Recurrent Autoencoder Networks (LRANs) for accelerating RL-based control of 2D Rayleigh-Bénard convection. We evaluate two training strategies: a surrogate trained on precomputed data generated with random actions, and a policy-aware surrogate trained iteratively using data collected from an evolving policy. Our results show that while surrogate-only training leads to reduced control performance, combining surrogates with DNS in a pretraining scheme recovers state-of-the-art performance while reducing training time by more than 40%. We demonstrate that policy-aware training mitigates the effects of distribution shift, enabling more accurate predictions in policy-relevant regions of the state space.