Robust Policy Learning for Multi-UAV Collision Avoidance with Causal Feature Selection

📄 arXiv: 2407.04056v2 📥 PDF

作者: Jiafan Zhuang, Gaofei Han, Zihao Xia, Boxi Wang, Wenji Li, Dongliang Wang, Zhifeng Hao, Ruichu Cai, Zhun Fan

分类: cs.RO

发布日期: 2024-07-04 (更新: 2024-07-15)


💡 一句话要点

提出一种基于因果特征选择的鲁棒策略学习方法,用于多无人机避障。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多无人机避障 深度强化学习 因果特征选择 鲁棒策略学习 泛化能力 无人机集群 碰撞避免

📋 核心要点

  1. 现有基于深度强化学习的无人机避障方法泛化性差,在未见环境中性能显著下降。
  2. 提出一种因果特征选择模块,集成到策略网络中,过滤非因果因素,减少虚假相关性。
  3. 实验表明,该方法在未见过的背景和障碍物场景中,显著优于现有算法,实现鲁棒导航。

📝 摘要(中文)

本文针对复杂户外环境中无人机集群的避障导航问题,提出了一种新的解决方案。现有的基于深度强化学习的避障方法在泛化能力方面存在不足,导致在未见过的环境中性能下降。为了解决这个问题,我们研究了DRL泛化能力弱的原因,并提出了一种新的因果特征选择模块。该模块可以集成到策略网络中,有效地过滤掉表征中的非因果因素,从而减少非因果因素与动作预测之间的虚假相关性的影响。实验结果表明,我们提出的方法能够实现鲁棒的导航性能和有效的避障,尤其是在具有未见过的背景和障碍物的场景中,显著优于现有的最先进算法。

🔬 方法详解

问题定义:现有基于深度强化学习的多无人机避障方法在面对复杂和未知的户外环境时,泛化能力不足。这些方法容易受到训练数据中存在的虚假相关性的影响,例如,特定的背景或障碍物类型可能与特定的避障动作错误地关联起来。当环境发生变化时,这些虚假相关性会导致策略失效,从而导致碰撞或导航失败。

核心思路:本文的核心思路是通过因果特征选择来提高策略的鲁棒性。通过识别和过滤掉表征中的非因果因素,减少策略对虚假相关性的依赖,从而提高其在未见环境中的泛化能力。该方法旨在学习一种更本质的、基于因果关系的策略,使其能够更好地适应新的环境和挑战。

技术框架:该方法将因果特征选择模块集成到深度强化学习策略网络中。整体流程包括:1) 从环境中获取状态信息;2) 使用策略网络生成动作;3) 执行动作并获得奖励;4) 使用奖励更新策略网络。关键在于,在状态信息输入策略网络之前,会经过因果特征选择模块,该模块负责识别和过滤掉非因果特征。

关键创新:最重要的技术创新点是因果特征选择模块。与传统的特征选择方法不同,该模块旨在识别和过滤掉那些与动作预测没有因果关系的特征,从而减少策略对虚假相关性的依赖。这种方法能够更有效地提高策略的鲁棒性和泛化能力,使其能够在未见环境中表现良好。

关键设计:因果特征选择模块的具体实现细节未知,论文中可能涉及特定的因果推断技术或算法来识别因果特征。损失函数的设计可能包括鼓励选择因果特征和惩罚选择非因果特征的项。网络结构方面,因果特征选择模块可能被设计为一个独立的子网络,与策略网络的其他部分进行交互。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在未见过的背景和障碍物场景中,能够显著优于现有的最先进算法。具体的性能提升数据未知,但摘要强调了其在鲁棒导航性能和有效避障方面的优势。该方法能够有效地减少非因果因素对策略的影响,从而提高其在不同环境中的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要多无人机协同作业的场景,例如:灾害救援、环境监测、农业植保、物流配送等。通过提高无人机集群在复杂环境中的避障能力和鲁棒性,可以降低事故风险,提高作业效率,并扩展无人机应用的范围。

📄 摘要(原文)

In unseen and complex outdoor environments, collision avoidance navigation for unmanned aerial vehicle (UAV) swarms presents a challenging problem. It requires UAVs to navigate through various obstacles and complex backgrounds. Existing collision avoidance navigation methods based on deep reinforcement learning show promising performance but suffer from poor generalization abilities, resulting in performance degradation in unseen environments. To address this issue, we investigate the cause of weak generalization ability in DRL and propose a novel causal feature selection module. This module can be integrated into the policy network and effectively filters out non-causal factors in representations, thereby reducing the influence of spurious correlations between non-causal factors and action predictions. Experimental results demonstrate that our proposed method can achieve robust navigation performance and effective collision avoidance especially in scenarios with unseen backgrounds and obstacles, which significantly outperforms existing state-of-the-art algorithms.