Tangled Program Graphs as an alternative to DRL-based control algorithms for UAVs

📄 arXiv: 2411.05586v1 📥 PDF

作者: Hubert Szolc, Karol Desnos, Tomasz Kryjak

分类: cs.RO, cs.AI, eess.SY

发布日期: 2024-11-08

备注: The papers was accepted for the 2024 Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA) conference in Poznan, Poland

DOI: 10.23919/SPA61993.2024.10715635


💡 一句话要点

提出基于缠结程序图(TPG)的无人机控制方法,替代计算成本高、可解释性差的DRL方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机控制 缠结程序图 深度强化学习 自主导航 激光雷达

📋 核心要点

  1. 深度强化学习在无人机控制中表现出色,但计算成本高昂且缺乏可解释性,限制了其在安全关键场景的应用。
  2. 论文提出使用缠结程序图(TPG)作为替代方案,TPG由简单程序组成的图结构,计算效率更高且行为可解释。
  3. 实验结果表明,TPG在无人机导航任务中具有良好的应用前景,为控制相关任务提供了一种新的选择。

📝 摘要(中文)

深度强化学习(DRL)是目前最流行的基于人工智能的自动驾驶车辆控制方法。为此目的在仿真中训练的智能体,可以达到人类水平的性能与真实环境交互。尽管在选定的指标方面取得了非常好的结果,但这种方法存在一些显著的缺点:计算需求高和可解释性低。因此,基于DRL的智能体不能用于某些控制任务,尤其是在安全是关键问题时。因此,我们建议使用缠结程序图(TPG)作为控制相关任务中深度强化学习的替代方案。在这种方法中,输入信号由简单的程序处理,这些程序组合在图结构中。因此,TPG的计算需求较低,并且可以基于图结构来解释其行为。在本文中,我们介绍了我们关于使用TPG作为控制相关任务中DRL替代方案的研究。特别是,我们考虑了仅基于机载激光雷达传感器在未知环境中导航无人机(UAV)的问题。我们的工作结果表明,TPG在控制相关任务中的应用前景广阔。

🔬 方法详解

问题定义:现有基于深度强化学习(DRL)的无人机控制方法,虽然在性能上表现出色,但存在两个主要痛点:一是计算资源需求高,难以在资源受限的嵌入式平台上部署;二是缺乏可解释性,难以保证在复杂环境下的安全性和可靠性,尤其是在安全攸关的应用中,例如紧急救援。

核心思路:论文的核心思路是利用缠结程序图(Tangled Program Graphs, TPGs)替代DRL,实现无人机的自主导航。TPG由一系列简单的程序组成,这些程序以图的形式连接,每个程序接收输入信号并产生输出。通过这种方式,复杂的控制逻辑被分解为一系列简单的、可解释的操作,从而降低了计算复杂度,并提高了系统的可解释性。

技术框架:该方法的技术框架主要包括以下几个步骤:1) 使用机载激光雷达(LiDAR)传感器获取环境信息;2) 将LiDAR数据作为输入信号传递给TPG;3) TPG中的程序对输入信号进行处理,生成控制指令;4) 无人机根据控制指令进行导航。整个过程无需复杂的神经网络训练,而是通过进化算法等方式优化TPG的结构和参数。

关键创新:该方法最重要的创新点在于使用TPG替代DRL进行无人机控制。与DRL相比,TPG具有以下优势:1) 计算复杂度低,更适合在资源受限的平台上部署;2) 可解释性强,易于理解和调试;3) 鲁棒性好,不易受到环境变化的影响。TPG通过图结构将控制逻辑分解为一系列简单的操作,从而实现了更高效、更可靠的无人机控制。

关键设计:TPG的关键设计包括:1) 程序集的设计,需要选择合适的程序类型,例如算术运算、逻辑运算等;2) 图结构的构建,需要确定节点之间的连接方式,以及每个节点的输入和输出;3) 优化算法的选择,需要选择合适的进化算法或其他优化方法,以优化TPG的结构和参数。此外,还需要考虑如何将LiDAR数据有效地转换为TPG的输入信号,以及如何将TPG的输出转换为无人机的控制指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了TPG在无人机导航任务中的有效性。实验结果表明,TPG能够实现无人机在未知环境中的自主导航,并且具有较低的计算成本和较高的可解释性。虽然论文中没有给出具体的性能数据,但强调了TPG在控制相关任务中具有良好的应用前景,为未来的研究方向提供了参考。

🎯 应用场景

该研究成果可应用于多种无人机自主导航场景,例如:灾害救援、环境监测、物流配送等。由于TPG具有计算成本低、可解释性强的特点,因此特别适合在资源受限、安全要求高的应用中使用。未来,该方法有望进一步推广到其他类型的自主移动机器人控制领域,例如自动驾驶汽车、水下机器人等。

📄 摘要(原文)

Deep reinforcement learning (DRL) is currently the most popular AI-based approach to autonomous vehicle control. An agent, trained for this purpose in simulation, can interact with the real environment with a human-level performance. Despite very good results in terms of selected metrics, this approach has some significant drawbacks: high computational requirements and low explainability. Because of that, a DRL-based agent cannot be used in some control tasks, especially when safety is the key issue. Therefore we propose to use Tangled Program Graphs (TPGs) as an alternative for deep reinforcement learning in control-related tasks. In this approach, input signals are processed by simple programs that are combined in a graph structure. As a result, TPGs are less computationally demanding and their actions can be explained based on the graph structure. In this paper, we present our studies on the use of TPGs as an alternative for DRL in control-related tasks. In particular, we consider the problem of navigating an unmanned aerial vehicle (UAV) through the unknown environment based solely on the on-board LiDAR sensor. The results of our work show promising prospects for the use of TPGs in control related-tasks.