Model-Based Reinforcement Learning for Control of Strongly-Disturbed Unsteady Aerodynamic Flows

📄 arXiv: 2408.14685v2 📥 PDF

作者: Zhecheng Liu, Diederik Beckers, Jeff D. Eldredge

分类: physics.flu-dyn, cs.LG

发布日期: 2024-08-26 (更新: 2025-02-27)

期刊: AIAA Journal, (Early Access) 2025

DOI: 10.2514/1.J064790


💡 一句话要点

提出基于模型的强化学习方法,用于控制强扰动下的非定常气动流

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 模型预测控制 降阶模型 气动控制 流体动力学 自编码器 深度学习

📋 核心要点

  1. 气动流控制因其高维度和对扰动的非线性响应而极具挑战,传统的无模型强化学习方法训练成本过高。
  2. 该论文提出一种基于模型的强化学习方法,利用降阶模型作为环境的替代,降低了训练成本。
  3. 实验表明,该方法在强扰动环境下俯仰翼型的控制中表现出良好的准确性和鲁棒性,并成功应用于垂直轴风力涡轮机。

📝 摘要(中文)

气动流控制面临流体动力学高维度和强扰动下非线性响应的挑战。深度强化学习(DRL)利用强化学习的探索性和深度神经网络的非线性,为发现可行控制策略提供了希望。然而,典型的无模型强化学习(MFRL)需要在训练期间进行大量的环境交互,训练成本高昂,阻碍了其发展和应用。本文提出了一种基于模型的强化学习(MBRL)方法,将一种新型降阶模型作为完整环境的替代。该模型由物理增强的自编码器(将高维CFD流场快照压缩到三维潜在空间)和潜在动力学模型(训练用于准确预测潜在空间中轨迹对动作序列的长期动态响应)组成。在强扰动环境下,对俯仰翼型的场景验证了模型的准确性和鲁棒性。此外,附录中讨论了在无扰动环境下垂直轴风力涡轮机的应用。基于在俯仰翼型问题中训练的模型,我们实现了一种MBRL策略,以减轻阵风-翼型遭遇期间的升力变化。结果表明,在降阶环境中学习的策略可以转化为完整CFD环境中的有效控制策略。

🔬 方法详解

问题定义:论文旨在解决强扰动下非定常气动流的控制问题。现有无模型强化学习方法需要大量的环境交互,导致训练成本过高,难以实际应用。

核心思路:核心思路是利用降阶模型来替代真实环境,从而降低强化学习的训练成本。通过学习降阶模型的动力学特性,可以在该模型上进行策略训练,然后将学习到的策略迁移到真实环境中。这样可以显著减少与真实环境的交互次数,提高训练效率。

技术框架:整体框架包含以下几个主要模块:1) 物理增强的自编码器:用于将高维CFD流场快照压缩到低维潜在空间。2) 潜在动力学模型:用于预测潜在空间中轨迹对动作序列的长期动态响应。3) 强化学习智能体:在潜在空间中与潜在动力学模型交互,学习控制策略。训练完成后,将学习到的策略部署到真实CFD环境中。

关键创新:关键创新在于将物理增强的自编码器与潜在动力学模型相结合,构建了一个能够准确预测流体动力学行为的降阶模型。这种方法能够有效地捕捉流场的主要特征,并在低维空间中进行动力学建模,从而降低了强化学习的复杂性。与传统的降阶模型相比,该方法能够更好地处理强扰动下的非线性动力学。

关键设计:物理增强的自编码器利用CFD数据进行训练,损失函数包括重构误差和物理约束项,以保证降阶模型的物理合理性。潜在动力学模型通常采用循环神经网络(RNN)或Transformer等序列模型,用于预测潜在空间中的状态转移。强化学习智能体可以使用各种算法,如PPO、SAC等。关键参数包括潜在空间的维度、自编码器的网络结构、动力学模型的类型和参数、以及强化学习算法的超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过实验验证了所提出的MBRL方法在俯仰翼型控制中的有效性。实验结果表明,在降阶环境中学习到的策略可以成功迁移到完整的CFD环境中,并有效地减轻阵风-翼型遭遇期间的升力变化。此外,该方法还成功应用于垂直轴风力涡轮机的控制,进一步证明了其泛化能力。

🎯 应用场景

该研究成果可应用于各种气动控制领域,例如飞行器姿态控制、风力涡轮机叶片控制、以及其他需要精确控制流体动力学行为的场景。通过降低训练成本,该方法有望加速强化学习在流体控制领域的应用,并为设计更高效、更稳定的气动系统提供新的思路。

📄 摘要(原文)

The intrinsic high dimension of fluid dynamics is an inherent challenge to control of aerodynamic flows, and this is further complicated by a flow's nonlinear response to strong disturbances. Deep reinforcement learning, which takes advantage of the exploratory aspects of reinforcement learning (RL) and the rich nonlinearity of a deep neural network, provides a promising approach to discover feasible control strategies. However, the typical model-free approach to reinforcement learning requires a significant amount of interaction between the flow environment and the RL agent during training, and this high training cost impedes its development and application. In this work, we propose a model-based reinforcement learning (MBRL) approach by incorporating a novel reduced-order model as a surrogate for the full environment. The model consists of a physics-augmented autoencoder, which compresses high-dimensional CFD flow field snaphsots into a three-dimensional latent space, and a latent dynamics model that is trained to accurately predict the long-time dynamics of trajectories in the latent space in response to action sequences. The accuracy and robustness of the model are demonstrated in the scenario of a pitching airfoil within a highly disturbed environment. Additionally, an application to a vertical-axis wind turbine in a disturbance-free environment is discussed in the Appendix Based on the model trained in the pitching airfoil problem, we realize an MBRL strategy to mitigate lift variation during gust-airfoil encounters. We demonstrate that the policy learned in the reduced-order environment translates to an effective control strategy in the full CFD environment.