Leveraging Event Streams with Deep Reinforcement Learning for End-to-End UAV Tracking

📄 arXiv: 2410.14685v1 📥 PDF

作者: Ala Souissi, Hajer Fradi, Panagiotis Papadakis

分类: cs.RO, cs.AI, cs.NE

发布日期: 2024-10-03


💡 一句话要点

提出基于事件流和深度强化学习的端到端无人机主动目标跟踪方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机跟踪 事件相机 深度强化学习 端到端学习 领域随机化

📋 核心要点

  1. 传统无人机跟踪方法在快速运动和光照变化等复杂环境下表现不佳,需要更鲁棒的感知方式。
  2. 利用事件相机的优势,设计端到端的深度强化学习框架,直接从事件流数据学习无人机控制策略。
  3. 通过领域随机化的仿真环境训练,提升模型在真实环境中的泛化能力,并在复杂场景下验证有效性。

📝 摘要(中文)

本文提出了一种主动跟踪方法,旨在提高无人机(UAV)的自主性,该方法利用事件相机这种低功耗成像传感器,它在速度和动态范围方面具有显著优势。所提出的跟踪控制器旨在响应来自安装的事件传感器的视觉反馈,调整无人机的运动以跟踪目标。为了充分利用四旋翼的运动能力和事件传感器的独特属性,我们提出了一个端到端的深度强化学习(DRL)框架,该框架将来自事件流的原始传感器数据直接映射到无人机的控制动作。为了在高度可变和具有挑战性的条件下学习最优策略,我们选择了一个具有领域随机化的仿真环境,以便有效地转移到真实世界环境。我们通过在具有挑战性的场景(包括快速移动的目标和不断变化的光照条件)下的实验证明了我们方法的有效性,从而提高了泛化能力。

🔬 方法详解

问题定义:论文旨在解决无人机在复杂环境下的自主目标跟踪问题。现有方法在快速运动目标和光照变化剧烈的情况下,跟踪精度和鲁棒性较差。传统方法依赖于帧图像,计算量大,且容易受到运动模糊的影响。

核心思路:论文的核心思路是利用事件相机获取的事件流数据,结合深度强化学习,直接学习无人机的控制策略。事件相机具有高动态范围和低延迟的特点,能够更好地捕捉快速运动的目标。通过深度强化学习,可以训练无人机在复杂环境中自主学习最优的跟踪策略。

技术框架:整体框架是一个端到端的深度强化学习系统。该系统包括事件相机、深度强化学习智能体和无人机控制模块。事件相机负责采集事件流数据,深度强化学习智能体负责根据事件流数据生成控制指令,无人机控制模块负责执行控制指令,控制无人机的运动。训练阶段在仿真环境中进行,并采用领域随机化技术,以提高模型在真实环境中的泛化能力。

关键创新:论文的关键创新在于将事件相机和深度强化学习相结合,实现无人机的端到端自主目标跟踪。与传统方法相比,该方法能够更好地处理快速运动目标和光照变化,并且具有更高的鲁棒性。此外,该方法还采用了领域随机化技术,提高了模型在真实环境中的泛化能力。

关键设计:论文中,深度强化学习智能体采用Actor-Critic结构。Actor网络负责生成控制指令,Critic网络负责评估控制指令的价值。损失函数包括Actor网络的策略梯度损失和Critic网络的时序差分误差。网络结构采用卷积神经网络提取事件流数据的特征,然后使用全连接层生成控制指令。领域随机化技术包括随机化目标的速度、光照条件和无人机的初始位置等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在快速移动目标和变化光照条件下表现出良好的跟踪性能。与传统方法相比,该方法在跟踪精度和鲁棒性方面均有显著提升。通过领域随机化,该模型在真实环境中的泛化能力得到有效验证,证明了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可应用于多种场景,例如:搜救行动中,无人机可以自主跟踪被困人员;安防巡逻中,无人机可以自主跟踪可疑目标;体育赛事直播中,无人机可以自主跟踪运动员。该技术能够提高无人机的自主性和智能化水平,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

In this paper, we present our proposed approach for active tracking to increase the autonomy of Unmanned Aerial Vehicles (UAVs) using event cameras, low-energy imaging sensors that offer significant advantages in speed and dynamic range. The proposed tracking controller is designed to respond to visual feedback from the mounted event sensor, adjusting the drone movements to follow the target. To leverage the full motion capabilities of a quadrotor and the unique properties of event sensors, we propose an end-to-end deep-reinforcement learning (DRL) framework that maps raw sensor data from event streams directly to control actions for the UAV. To learn an optimal policy under highly variable and challenging conditions, we opt for a simulation environment with domain randomization for effective transfer to real-world environments. We demonstrate the effectiveness of our approach through experiments in challenging scenarios, including fast-moving targets and changing lighting conditions, which result in improved generalization capabilities.