Interpretable DRL-based Maneuver Decision of UCAV Dogfight
作者: Haoran Han, Jian Cheng, Maolong Lv
分类: cs.RO, cs.LG
发布日期: 2024-05-28
💡 一句话要点
提出基于DRL的可解释UCAV空战机动决策框架,提升决策透明度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人作战飞行器 深度强化学习 空战决策 机动决策 可解释性
📋 核心要点
- 现有UCAV空战决策方法缺乏可解释性,难以理解智能体的决策逻辑和行为模式。
- 利用深度强化学习进行高层机动决策,结合底层控制律和基本飞行机动库,构建三层空战框架。
- 实验结果表明,该方法在面对不同对手时表现良好,并涌现出Yo-yo和俯冲追击等战术,提升了可解释性。
📝 摘要(中文)
本文提出了一种三层无人作战飞行器(UCAV)空战框架,其中深度强化学习(DRL)负责高层机动决策。首先构建了一个四通道的底层控制律,然后建立了一个包含八种基本飞行机动(BFM)的库。采用双深度Q网络(DDQN)进行UCAV空战中的BFM选择,训练过程中对手策略采用决策树(DT)构建。仿真结果表明,该智能体对DT策略的胜率达到85.75%,并且在面对各种未见过的对手时也能取得积极的结果。基于所提出的框架,显著提高了基于DRL的空战的可解释性。“Yo-yo”机动的出现表明智能体可以调整其转弯速率并获得更高的机动性。“俯冲追击”行为的出现也表明智能体可以产生一种新的战术,利用对手的弱点。
🔬 方法详解
问题定义:现有UCAV空战决策方法,特别是基于深度学习的方法,通常缺乏可解释性。难以理解智能体选择特定机动的理由,这限制了其在实际应用中的信任度和调试能力。此外,对手策略的多样性也对智能体的鲁棒性提出了挑战。
核心思路:本文的核心思路是将空战决策过程分解为三个层次:底层控制、基本机动选择和高层策略决策。通过预定义的底层控制律和基本机动库,简化了动作空间,使得高层策略决策更加可控和易于理解。利用深度强化学习在高层进行决策,学习最优的机动选择策略。
技术框架:该框架包含三个主要层次:1) 底层控制律:采用四通道控制律,实现对UCAV的基本飞行控制。2) 基本飞行机动(BFM)库:包含八种预定义的BFM,如转弯、爬升、俯冲等。3) 高层决策:使用DDQN算法,根据当前状态选择合适的BFM。训练过程中,对手策略采用决策树(DT)模拟。
关键创新:该方法的主要创新在于将深度强化学习与预定义的底层控制和机动库相结合,显著提高了空战决策的可解释性。通过观察智能体选择的机动序列,可以更容易地理解其决策逻辑和行为模式。此外,智能体能够涌现出新的战术,如“俯冲追击”,表明其具有一定的策略学习能力。
关键设计:底层控制律的具体参数未知。DDQN算法的具体网络结构和超参数设置未知。训练过程中,对手DT策略的具体构建方法未知。奖励函数的设计对智能体的学习效果至关重要,但论文中未详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该智能体在与决策树(DT)对手的对抗中,取得了85.75%的胜率。更重要的是,该智能体在面对各种未见过的对手时,也能表现出良好的适应性和鲁棒性。此外,智能体涌现出的“Yo-yo”和“俯冲追击”等战术,表明其具有一定的策略学习能力。
🎯 应用场景
该研究成果可应用于无人作战飞行器的自主空战决策系统,提高UCAV的作战效能和自主性。同时,该方法在提高决策可解释性方面的探索,有助于增强人机协作,提升飞行员对AI决策的信任度。此外,该框架也可扩展到其他复杂决策场景,如机器人导航、自动驾驶等。
📄 摘要(原文)
This paper proposes a three-layer unmanned combat aerial vehicle (UCAV) dogfight frame where Deep reinforcement learning (DRL) is responsible for high-level maneuver decision. A four-channel low-level control law is firstly constructed, followed by a library containing eight basic flight maneuvers (BFMs). Double deep Q network (DDQN) is applied for BFM selection in UCAV dogfight, where the opponent strategy during the training process is constructed with DT. Our simulation result shows that, the agent can achieve a win rate of 85.75% against the DT strategy, and positive results when facing various unseen opponents. Based on the proposed frame, interpretability of the DRL-based dogfight is significantly improved. The agent performs yo-yo to adjust its turn rate and gain higher maneuverability. Emergence of "Dive and Chase" behavior also indicates the agent can generate a novel tactic that utilizes the drawback of its opponent.