Guidance Design for Escape Flight Vehicle Using Evolution Strategy Enhanced Deep Reinforcement Learning

📄 arXiv: 2405.03711v1 📥 PDF

作者: Xiao Hu, Tianshu Wang, Min Gong, Shaoshi Yang

分类: cs.LG, cs.AI, cs.NE, eess.SY

发布日期: 2024-05-04

备注: 13 pages, 13 figures, accepted to appear on IEEE Access, Mar. 2024

期刊: IEEE Access, vol. 12, pp. 48210-48222, Mar. 2024

DOI: 10.1109/ACCESS.2024.3383322


💡 一句话要点

提出基于进化策略增强深度强化学习的逃逸飞行器制导方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 进化策略 飞行器制导 逃逸策略 近端策略优化

📋 核心要点

  1. 传统飞行器制导方法难以应对复杂动态环境,深度强化学习为解决此类序贯决策问题提供了新思路。
  2. 论文提出一种两步策略,先用PPO进行全局粗略搜索,再用进化策略进行局部精细优化,提升制导性能。
  3. 实验结果表明,所提方法在逃逸飞行器制导任务中,显著提高了剩余速度,优于其他基线算法。

📝 摘要(中文)

本文研究了逃逸飞行器(EFV)在规避追击飞行器(PFV)时的制导问题。EFV基于深度强化学习(DRL)生成制导指令,而PFV采用比例导引法。EFV的制导目标是在满足规避距离约束的前提下,最大化剩余速度。这构成了一个大规模、不规则的动态最大-最小问题,其最优解的获得时间不确定,且依赖于之前生成的所有中间制导指令。为此,论文提出了一种两步策略:首先,使用近端策略优化(PPO)算法生成EFV的制导指令。尽管精心设计了奖励函数、神经网络参数和学习率,但PPO在全局搜索空间中得到的结果仍然较为粗糙。因此,第二步,提出基于进化策略(ES)的算法,以PPO的结果作为初始值,通过在局部空间搜索来进一步提高解的质量。仿真结果表明,基于PPO的制导方法能够实现67.24 m/s的剩余速度,高于软演员-评论家和深度确定性策略梯度算法。此外,ES增强的PPO算法比PPO算法性能提升了2.7%,实现了69.04 m/s的剩余速度。

🔬 方法详解

问题定义:论文旨在解决逃逸飞行器(EFV)在面对追击飞行器(PFV)时,如何生成最优制导指令以最大化剩余速度,同时满足最小规避距离约束的问题。现有方法,如传统制导策略,难以适应复杂动态对抗环境,而直接应用深度强化学习(DRL)算法,由于搜索空间巨大和奖励稀疏,容易陷入局部最优。

核心思路:论文的核心思路是结合深度强化学习的全局搜索能力和进化策略的局部优化能力。首先利用PPO算法在全局范围内进行粗略搜索,找到一个较好的初始解,然后利用进化策略(ES)在该初始解附近进行局部精细搜索,从而提高解的质量,避免陷入局部最优。

技术框架:整体框架分为两个阶段: 1. PPO阶段:使用PPO算法训练一个策略网络,该网络以当前状态(例如,EFV和PFV的位置、速度等)作为输入,输出EFV的制导指令。奖励函数设计为最大化剩余速度,并对违反规避距离约束的行为进行惩罚。 2. ES阶段:以PPO阶段获得的策略参数作为初始值,使用进化策略算法对策略参数进行微调。ES通过维护一个策略参数种群,并根据适应度(剩余速度)选择和变异策略参数,逐步优化策略。

关键创新:论文的关键创新在于将深度强化学习(PPO)与进化策略(ES)相结合,形成一种混合优化方法。这种方法充分利用了PPO的全局搜索能力和ES的局部优化能力,克服了单一DRL算法容易陷入局部最优的缺点。与直接使用ES相比,PPO提供的良好初始解可以加速ES的收敛速度。

关键设计: * 奖励函数:奖励函数设计为剩余速度的线性函数,并对违反规避距离约束的行为进行负奖励。 * PPO网络结构:采用多层感知机(MLP)作为策略网络,输入为状态向量,输出为制导指令。 * ES参数:种群大小、变异率等参数需要根据具体问题进行调整。论文中未明确给出这些参数的具体数值,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于PPO的制导方法能够实现67.24 m/s的剩余速度,优于基线算法软演员-评论家(SAC)和深度确定性策略梯度(DDPG)。进一步地,通过进化策略(ES)增强PPO算法,剩余速度提升至69.04 m/s,相比PPO算法提升了2.7%。这些结果验证了所提方法的有效性。

🎯 应用场景

该研究成果可应用于无人机集群对抗、导弹防御、以及其他需要智能决策的复杂动态对抗场景。通过优化逃逸飞行器的制导策略,可以提高其生存能力和任务完成效率,具有重要的军事和民用价值。未来,可以将该方法推广到更复杂的对抗环境和多智能体系统。

📄 摘要(原文)

Guidance commands of flight vehicles are a series of data sets with fixed time intervals, thus guidance design constitutes a sequential decision problem and satisfies the basic conditions for using deep reinforcement learning (DRL). In this paper, we consider the scenario where the escape flight vehicle (EFV) generates guidance commands based on DRL and the pursuit flight vehicle (PFV) generates guidance commands based on the proportional navigation method. For the EFV, the objective of the guidance design entails progressively maximizing the residual velocity, subject to the constraint imposed by the given evasion distance. Thus an irregular dynamic max-min problem of extremely large-scale is formulated, where the time instant when the optimal solution can be attained is uncertain and the optimum solution depends on all the intermediate guidance commands generated before. For solving this problem, a two-step strategy is conceived. In the first step, we use the proximal policy optimization (PPO) algorithm to generate the guidance commands of the EFV. The results obtained by PPO in the global search space are coarse, despite the fact that the reward function, the neural network parameters and the learning rate are designed elaborately. Therefore, in the second step, we propose to invoke the evolution strategy (ES) based algorithm, which uses the result of PPO as the initial value, to further improve the quality of the solution by searching in the local space. Simulation results demonstrate that the proposed guidance design method based on the PPO algorithm is capable of achieving a residual velocity of 67.24 m/s, higher than the residual velocities achieved by the benchmark soft actor-critic and deep deterministic policy gradient algorithms. Furthermore, the proposed ES-enhanced PPO algorithm outperforms the PPO algorithm by 2.7\%, achieving a residual velocity of 69.04 m/s.