A Multimodal Learning-based Approach for Autonomous Landing of UAV

📄 arXiv: 2405.12681v1 📥 PDF

作者: Francisco Neves, Luís Branco, Maria Pereira, Rafael Claro, Andry Pinto

分类: cs.CV

发布日期: 2024-05-21


💡 一句话要点

提出一种基于多模态学习的无人机自主着陆方法,提升精度和环境适应性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机自主着陆 多模态学习 Transformer 强化学习 深度Q网络 环境适应性 边缘计算

📋 核心要点

  1. 传统无人机自主着陆方法在精度和环境适应性方面存在不足,难以应对复杂环境和传感器故障。
  2. 利用多模态Transformer深度学习检测器融合多种传感器信息,提高定位精度和鲁棒性,并结合强化学习进行决策。
  3. 实验结果表明,该方法在不同环境中均能达到较高的真阳性率和平均精度,且推理速度快,适合边缘设备部署。

📝 摘要(中文)

在无人机自主着陆领域,传统方法在精度和抗环境干扰方面存在不足。本文提出了一种基于多模态Transformer的深度学习检测器,为精确自主着陆提供可靠的定位。该方法克服了单一传感器的局限性,即使在各种天气和传感器故障条件下也能实现高可靠性,并在不同环境中进行了严格验证,实现了高达90%的最佳真阳性率和平均精度。此外,本文还提出了一种基于深度Q网络(DQN)的强化学习决策模型。该模型最初在仿真环境中训练,其自适应行为已成功转移并在真实的户外场景中得到验证。该方法还展示了约5毫秒的快速推理时间,验证了其在边缘设备上的适用性。

🔬 方法详解

问题定义:无人机自主着陆需要高精度和高鲁棒性的定位和决策能力。传统方法依赖单一传感器,易受环境干扰和传感器故障影响,导致着陆失败。现有方法难以在复杂环境和边缘设备上实现可靠的自主着陆。

核心思路:利用多模态信息融合提高定位精度和鲁棒性,并采用强化学习进行智能决策。通过深度学习模型学习环境特征和最佳着陆策略,克服传统方法的局限性,实现更可靠的自主着陆。

技术框架:该方法包含两个主要模块:多模态Transformer深度学习检测器和基于DQN的强化学习决策模型。首先,多模态Transformer检测器融合来自不同传感器的信息,提供精确的无人机位置估计。然后,DQN模型根据位置估计和其他环境信息,学习最佳的着陆策略,控制无人机安全着陆。

关键创新:关键创新在于多模态Transformer检测器的设计,它能够有效地融合来自不同传感器的信息,克服单一传感器的局限性,提高定位精度和鲁棒性。此外,将强化学习应用于无人机自主着陆决策,使无人机能够根据环境变化自适应地调整着陆策略。

关键设计:多模态Transformer检测器采用Transformer架构,能够捕捉不同传感器信息之间的关联性。DQN模型使用深度神经网络作为Q函数的近似,通过经验回放和目标网络等技术提高训练稳定性。损失函数采用均方误差损失,优化目标是最小化预测Q值与目标Q值之间的差异。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在不同环境中均能达到高达90%的真阳性率和平均精度,显著优于传统方法。此外,该方法具有约5毫秒的快速推理时间,验证了其在边缘设备上的适用性。强化学习模型在仿真环境中训练后,成功迁移到真实户外场景,证明了其泛化能力。

🎯 应用场景

该研究成果可应用于物流配送、灾害救援、农业植保等领域,实现无人机在复杂环境下的自主着陆,提高作业效率和安全性。该技术还可扩展到其他自主导航任务,如无人车、机器人等,具有广阔的应用前景。

📄 摘要(原文)

In the field of autonomous Unmanned Aerial Vehicles (UAVs) landing, conventional approaches fall short in delivering not only the required precision but also the resilience against environmental disturbances. Yet, learning-based algorithms can offer promising solutions by leveraging their ability to learn the intelligent behaviour from data. On one hand, this paper introduces a novel multimodal transformer-based Deep Learning detector, that can provide reliable positioning for precise autonomous landing. It surpasses standard approaches by addressing individual sensor limitations, achieving high reliability even in diverse weather and sensor failure conditions. It was rigorously validated across varying environments, achieving optimal true positive rates and average precisions of up to 90%. On the other hand, it is proposed a Reinforcement Learning (RL) decision-making model, based on a Deep Q-Network (DQN) rationale. Initially trained in sumlation, its adaptive behaviour is successfully transferred and validated in a real outdoor scenario. Furthermore, this approach demonstrates rapid inference times of approximately 5ms, validating its applicability on edge devices.