Multi-agent reinforcement learning for the control of three-dimensional Rayleigh-Bénard convection

📄 arXiv: 2407.21565v2 📥 PDF

作者: Joel Vasanth, Jean Rabault, Francisco Alcántara-Ávila, Mikael Mortensen, Ricardo Vinuesa

分类: physics.flu-dyn, cs.LG

发布日期: 2024-07-31 (更新: 2024-11-24)

备注: Submitted to the special issue titled 'Machine Learning for Fluid Dynamics' in the journal Flow, Turbulence and Combusion. 39 pages and 20 figures


💡 一句话要点

首次提出基于多智能体强化学习的三维Rayleigh-Bénard对流控制方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 Rayleigh-Bénard对流 流动控制 深度强化学习 热对流 智能控制

📋 核心要点

  1. 传统流动控制方法难以有效处理具有局部性和平移不变性的复杂三维Rayleigh-Bénard对流。
  2. 采用多智能体强化学习,将底壁划分为多个独立控制段,通过协同控制温度分布降低对流强度。
  3. 实验表明,该方法在不同瑞利数下均能有效降低对流强度,且策略可迁移至更大区域。

📝 摘要(中文)

本文首次提出了一种基于多智能体强化学习(MARL)的三维Rayleigh-Bénard对流(RBC)控制方法。该方法通过修改底部壁面上的温度分布来执行控制,底部壁面被划分为多个控制段,每个控制段作为一个独立的智能体。研究考虑了瑞利数Ra=500和750两种RBC状态。对学习到的控制策略的评估表明,在Ra=500和750时,对流强度分别降低了23.5%和8.7%。MARL控制器将不规则形状的对流模式转换为具有较低对流的规则直线滚动,类似于相对更稳定状态下的流动。与比例控制进行了比较,结果表明MARL能够优于比例控制器。学习到的控制策略是复杂的,具有不同的非线性分段执行器延迟和驱动幅度。此外,还在比训练更大的域上成功进行了评估,证明了MARL的不变性允许直接转移学习到的策略。

🔬 方法详解

问题定义:论文旨在解决三维Rayleigh-Bénard对流的控制问题,目标是降低对流强度。现有的控制方法,例如比例控制,在处理这种具有复杂非线性动力学和局部相互作用的流动时效果有限。传统方法难以捕捉流动中的复杂时空依赖关系,并且可能需要大量的先验知识和手动调整。

核心思路:论文的核心思路是利用多智能体强化学习(MARL),将控制问题分解为多个局部控制任务,每个智能体负责控制底壁的一个分段。通过智能体之间的协同作用,学习到一个全局最优的控制策略,从而有效地降低对流强度。这种方法能够更好地适应流动的局部性和平移不变性。

技术框架:整体框架包括一个三维Rayleigh-Bénard对流模拟器和一个MARL控制器。模拟器提供环境状态和奖励信号,MARL控制器根据环境状态输出控制动作(即底壁分段的温度变化)。MARL控制器由多个独立的智能体组成,每个智能体使用深度神经网络来学习控制策略。训练过程中,智能体通过与环境交互,不断优化策略,最终达到降低对流强度的目标。

关键创新:该论文的关键创新在于首次将MARL应用于三维Rayleigh-Bénard对流控制。与传统的单智能体强化学习相比,MARL能够更好地处理具有局部性和平移不变性的流动。此外,该方法能够学习到复杂的非线性控制策略,优于传统的比例控制。

关键设计:每个智能体使用独立的深度神经网络作为策略网络,输入是局部环境状态(例如,底壁分段附近的温度分布),输出是控制动作(即底壁分段的温度变化)。奖励函数的设计目标是降低对流强度,例如可以使用努塞尔数(Nusselt number)作为奖励信号。训练过程中,使用Actor-Critic算法来优化策略网络。此外,论文还探索了不同的网络结构和超参数设置,以提高控制性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的MARL控制器在Ra=500和750时,分别实现了23.5%和8.7%的对流强度降低。与比例控制相比,MARL控制器表现出更优越的性能。此外,该方法学习到的控制策略具有良好的泛化能力,可以直接迁移到比训练区域更大的区域,无需重新训练。

🎯 应用场景

该研究成果可应用于各种涉及热对流控制的场景,例如数据中心散热、建筑节能、工业冷却系统等。通过精确控制温度分布,可以有效降低能耗、提高系统效率和稳定性。未来,该方法有望推广到更复杂的流动控制问题,例如湍流控制和燃烧控制。

📄 摘要(原文)

Deep reinforcement learning (DRL) has found application in numerous use-cases pertaining to flow control. Multi-agent RL (MARL), a variant of DRL, has shown to be more effective than single-agent RL in controlling flows exhibiting locality and translational invariance. We present, for the first time, an implementation of MARL-based control of three-dimensional Rayleigh-Bénard convection (RBC). Control is executed by modifying the temperature distribution along the bottom wall divided into multiple control segments, each of which acts as an independent agent. Two regimes of RBC are considered at Rayleigh numbers $\mathrm{Ra}=500$ and $750$. Evaluation of the learned control policy reveals a reduction in convection intensity by $23.5\%$ and $8.7\%$ at $\mathrm{Ra}=500$ and $750$, respectively. The MARL controller converts irregularly shaped convective patterns to regular straight rolls with lower convection that resemble flow in a relatively more stable regime. We draw comparisons with proportional control at both $\mathrm{Ra}$ and show that MARL is able to outperform the proportional controller. The learned control strategy is complex, featuring different non-linear segment-wise actuator delays and actuation magnitudes. We also perform successful evaluations on a larger domain than used for training, demonstrating that the invariant property of MARL allows direct transfer of the learnt policy.