Handover and SINR-Aware Path Optimization in 5G-UAV mmWave Communication using DRL

📄 arXiv: 2504.02688v1 📥 PDF

作者: Achilles Kiwanuka Machumilane, Alberto Gotta, Pietro Cassarà

分类: cs.NI, cs.LG, eess.SP

发布日期: 2025-04-03


💡 一句话要点

提出基于AC-DRL的5G-UAV毫米波通信路径优化方法,提升SINR并减少切换。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机通信 5G毫米波 路径优化 深度强化学习 Actor-Critic算法

📋 核心要点

  1. 传统路径优化方法难以适应5G毫米波信道动态变化,尤其是在包含视距、干扰、切换和SINR等因素时。
  2. 论文提出基于Actor-Critic深度强化学习的路径优化框架,综合考虑飞行时间、切换、连接性和SINR四个关键因素。
  3. 实验结果表明,该方法在跟踪高SINR方面优于其他强化学习算法,验证了其在动态环境下的有效性。

📝 摘要(中文)

本文提出了一种新颖的无模型Actor-Critic深度强化学习(AC-DRL)框架,用于无人机(UAV)辅助的5G毫米波无线网络中的路径优化。该框架综合考虑了UAV通信的四个重要方面:飞行时间、切换、连接性和信号与干扰加噪声比(SINR)。通过训练AC-RL智能体,使连接到gNB的UAV能够确定到达期望目的地的最佳路径,在最短时间内实现最小的gNB切换,同时保持连接性和尽可能高的SINR。该模型使用Wireless InSite射线追踪工具生成的数据进行训练,该工具利用传播环境的3D图像,提供与真实传播环境非常相似的数据。仿真结果表明,与选定的其他RL算法相比,该系统在跟踪高SINR方面具有优越的性能。

🔬 方法详解

问题定义:论文旨在解决在5G-UAV毫米波通信中,如何在动态变化的无线信道环境下,为无人机规划出一条最优路径,以最小化飞行时间和切换次数,同时最大化SINR并保持连接。现有基于统计和模型的方法难以适应毫米波信道的快速变化,导致路径规划效果不佳。

核心思路:论文的核心思路是利用深度强化学习(DRL)的自适应能力,通过与环境的交互学习,找到最优的路径规划策略。Actor-Critic算法能够同时学习策略(Actor)和价值函数(Critic),从而更有效地探索状态空间,并做出更优的决策。

技术框架:整体框架包含以下几个主要部分:1) 无人机作为智能体,在3D城市环境中移动;2) gNB作为基站,为无人机提供无线连接;3) Actor-Critic DRL智能体,负责学习路径规划策略;4) Wireless InSite射线追踪工具,用于模拟真实的无线传播环境,生成训练数据。无人机根据当前状态(位置、SINR等)选择动作(移动方向),环境给出奖励(基于飞行时间、切换次数和SINR),智能体根据奖励更新策略和价值函数。

关键创新:论文的关键创新在于将Actor-Critic DRL算法应用于5G-UAV毫米波通信的路径优化问题,并综合考虑了飞行时间、切换、连接性和SINR四个关键因素。此外,使用Wireless InSite射线追踪工具生成的数据进行训练,使得模型能够更好地适应真实的无线传播环境。

关键设计:Actor网络和Critic网络均采用深度神经网络结构。奖励函数的设计至关重要,需要平衡飞行时间、切换次数和SINR之间的关系。例如,可以设置负奖励来惩罚过长的飞行时间和频繁的切换,同时设置正奖励来鼓励高SINR。具体参数设置(如学习率、折扣因子等)需要根据实验结果进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的AC-DRL方法在跟踪高SINR方面优于其他强化学习算法。具体而言,与DQN等基线算法相比,该方法能够更快地找到高SINR的路径,并减少切换次数。虽然论文中没有给出具体的数值提升百分比,但强调了其在复杂无线环境下的优越性能。

🎯 应用场景

该研究成果可应用于多种场景,例如:灾后应急通信、城市物流配送、环境监测等。通过优化无人机的飞行路径,可以提高通信质量,降低运营成本,并提升任务执行效率。未来,该技术有望进一步应用于智能交通、智慧城市等领域,为无人机的大规模应用提供技术支撑。

📄 摘要(原文)

Path planning and optimization for unmanned aerial vehicles (UAVs)-assisted next-generation wireless networks is critical for mobility management and ensuring UAV safety and ubiquitous connectivity, especially in dense urban environments with street canyons and tall buildings. Traditional statistical and model-based techniques have been successfully used for path optimization in communication networks. However, when dynamic channel propagation characteristics such as line-of-sight (LOS), interference, handover, and signal-to-interference and noise ratio (SINR) are included in path optimization, statistical and model-based path planning solutions become obsolete since they cannot adapt to the dynamic and time-varying wireless channels, especially in the mmWave bands. In this paper, we propose a novel model-free actor-critic deep reinforcement learning (AC-DRL) framework for path optimization in UAV-assisted 5G mmWave wireless networks, which combines four important aspects of UAV communication: \textit{flight time, handover, connectivity and SINR}. We train an AC-RL agent that enables a UAV connected to a gNB to determine the optimal path to a desired destination in the shortest possible time with minimal gNB handover, while maintaining connectivity and the highest possible SINR. We train our model with data from a powerful ray tracing tool called Wireless InSite, which uses 3D images of the propagation environment and provides data that closely resembles the real propagation environment. The simulation results show that our system has superior performance in tracking high SINR compared to other selected RL algorithms.