DRL-Enabled Trajectory Planing for UAV-Assisted VLC: Optimal Altitude and Reward Design
作者: Tian-Tian Lin, Yi Liu, Xiao-Wei Tang, Yunmei Shi, Yi Huang, Zhongxiang Wei, Qingqing Wu, Yuhan Dong
分类: cs.LG
发布日期: 2026-01-30
💡 一句话要点
提出基于DRL的无人机辅助VLC轨迹规划方法,优化飞行高度和奖励函数设计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 无人机 可见光通信 轨迹规划 深度强化学习 最优高度 奖励函数设计 数据收集 TD3算法
📋 核心要点
- 现有无人机辅助VLC系统缺乏有效的轨迹规划方法,难以在最小化飞行距离的同时保证数据收集效率。
- 论文提出一种基于深度强化学习的轨迹规划框架,结合最优飞行高度推导和信息素驱动的奖励机制,优化无人机水平轨迹。
- 实验结果表明,该方法能有效减少飞行距离,并显著缩短算法收敛时间,提升数据收集效率。
📝 摘要(中文)
本文研究了无人机(UAV)辅助可见光通信(VLC)系统中的三维轨迹规划问题,旨在利用无人机从地面用户(GU)收集数据,同时提供灵活的通信和高效的照明。核心目标是开发一种轨迹规划框架,以最小化无人机的飞行距离,从而最大化数据收集效率。该问题被建模为一个具有挑战性的混合整数非凸优化问题。为了解决这个问题,首先推导了特定VLC信道增益阈值下的闭式最优飞行高度。随后,通过将一种新颖的基于信息素的奖励机制与双延迟深度确定性策略梯度算法相结合,优化无人机的水平轨迹,从而在复杂环境中实现自适应的无人机运动策略。仿真结果表明,与基线方法相比,所推导的最优高度有效地减少了高达35%的飞行距离。此外,所提出的奖励机制显著缩短了约50%的收敛步骤,展示了在无人机辅助VLC数据收集方面的显著效率提升。
🔬 方法详解
问题定义:论文旨在解决无人机辅助可见光通信(VLC)系统中,如何规划无人机的三维飞行轨迹,以最小化飞行距离,从而最大化数据收集效率的问题。现有方法通常采用固定的飞行高度或简单的轨迹规划策略,无法充分利用VLC信道的特性,导致飞行距离较长,数据收集效率较低。该问题被建模为一个混合整数非凸优化问题,难以直接求解。
核心思路:论文的核心思路是将三维轨迹规划问题分解为两个子问题:首先,推导在给定VLC信道增益阈值下,无人机的最优飞行高度;然后,利用深度强化学习(DRL)算法优化无人机的水平轨迹。通过这种分解,可以将复杂的优化问题简化为更容易求解的形式,并利用DRL算法的自适应能力,在复杂环境中找到最优的飞行策略。
技术框架:整体框架包含两个主要阶段:1) 最优飞行高度推导:基于VLC信道模型和信道增益阈值,推导出无人机的最优飞行高度的闭式解。2) 水平轨迹优化:利用双延迟深度确定性策略梯度(TD3)算法,结合一种新颖的基于信息素的奖励机制,优化无人机的水平轨迹。无人机根据当前状态(位置、速度等)和环境信息(地面用户位置、障碍物等),选择下一步的行动(飞行方向、速度等),并根据奖励信号调整策略。
关键创新:论文的关键创新在于:1) 推导了VLC信道增益阈值下的最优飞行高度的闭式解,避免了复杂的数值优化过程。2) 提出了一种基于信息素的奖励机制,引导无人机探索更有效的飞行路径,并加速算法的收敛。该奖励机制模拟了蚂蚁寻找食物的过程,无人机在飞行过程中释放“信息素”,吸引后续的无人机选择类似的路径。
关键设计:在TD3算法中,状态空间包括无人机的位置、速度、目标用户的位置等信息。动作空间包括无人机的飞行方向和速度。奖励函数的设计至关重要,除了基本的距离奖励外,还包括基于信息素的奖励,以及避免碰撞的惩罚。信息素的更新规则根据无人机的飞行距离和数据收集量进行调整。网络结构采用Actor-Critic框架,Actor网络用于生成动作,Critic网络用于评估动作的价值。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,与基线方法相比,所推导的最优飞行高度能够有效减少高达35%的飞行距离。此外,所提出的基于信息素的奖励机制能够显著缩短约50%的算法收敛步骤,表明该方法在无人机辅助VLC数据收集方面具有显著的效率提升。这些结果验证了该方法在实际应用中的可行性和有效性。
🎯 应用场景
该研究成果可应用于各种需要无人机辅助通信和数据收集的场景,例如:灾后应急通信、偏远地区网络覆盖、环境监测、农业巡检等。通过优化无人机的飞行轨迹,可以提高数据收集效率,降低通信成本,并为用户提供更可靠的通信服务。未来,该方法还可以扩展到多无人机协同通信的场景,进一步提高系统的性能。
📄 摘要(原文)
Recently, the integration of unmanned aerial vehicle (UAV) and visible light communication (VLC) technologies has emerged as a promising solution to offer flexible communication and efficient lighting. This letter investigates the three-dimensional trajectory planning in a UAV-assisted VLC system, where a UAV is dispatched to collect data from ground users (GUs). The core objective is to develop a trajectory planning framework that minimizes UAV flight distance, which is equivalent to maximizing the data collection efficiency. This issue is formulated as a challenging mixed-integer non-convex optimization problem. To tackle it, we first derive a closed-form optimal flight altitude under specific VLC channel gain threshold. Subsequently, we optimize the UAV horizontal trajectory by integrating a novel pheromone-driven reward mechanism with the twin delayed deep deterministic policy gradient algorithm, which enables adaptive UAV motion strategy in complex environments. Simulation results validate that the derived optimal altitude effectively reduces the flight distance by up to 35% compared to baseline methods. Additionally, the proposed reward mechanism significantly shortens the convergence steps by approximately 50%, demonstrating notable efficiency gains in the context of UAV-assisted VLC data collection.