Bridging Network Fragmentation: A Semantic-Augmented DRL Framework for UAV-aided VANETs
作者: Gaoxiang Cao, Wenke Yuan, Huasen He, Yunpeng Hou, Xiaofeng Jiang, Shuangwu Chen, Jian Yang
分类: cs.AI, cs.NI
发布日期: 2026-03-19
备注: 13 pages, 13 figures. Submitted to IEEE Transactions on Cognitive Communications and Networking
💡 一句话要点
提出SA-DRL框架,利用语义增强的DRL解决UAV辅助VANET中的网络碎片问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无人机辅助网络 车辆自组织网络 深度强化学习 语义增强 大型语言模型 网络碎片 道路拓扑 PPO算法
📋 核心要点
- 现有基于DRL的UAV部署策略缺乏对道路拓扑的语义理解,导致盲目探索和样本效率低。
- SA-DRL框架利用LLM的推理能力,将其转化为领域专家,并注入DRL策略中,引导智能体学习。
- SA-PPO算法在连接性指标上提升显著,能耗大幅降低,验证了语义增强DRL的有效性。
📝 摘要(中文)
车辆自组织网络(VANETs)是自动驾驶的数字基石,但由于物理障碍,在城市环境中存在严重的网络碎片问题。无人机(UAV)凭借其高移动性,已成为弥合这些连接差距的重要解决方案。然而,传统的基于深度强化学习(DRL)的无人机部署策略缺乏对道路拓扑的语义理解,常常导致盲目探索和样本效率低下。相比之下,大型语言模型(LLM)具有强大的推理能力,能够识别拓扑重要性,但将其应用于控制任务仍然具有挑战性。为了解决这个问题,我们提出了语义增强DRL(SA-DRL)框架。首先,我们提出了一种基于道路拓扑图(RTG)和双连通图(DCG)的碎片量化方法。其次,我们设计了一个四阶段流程,将通用LLM转化为特定领域的拓扑专家。最后,我们提出了语义增强PPO(SA-PPO)算法,该算法采用Logit融合机制,将LLM的语义推理直接注入到策略中作为先验,有效地引导智能体朝向关键路口。大量高保真仿真表明,SA-PPO以卓越的效率实现了最先进的性能,仅使用26.6%的训练集就达到了基线性能水平。最终,SA-PPO将两个关键的连接性指标提高了13.2%和23.5%,同时将能耗降低到基线的28.2%。
🔬 方法详解
问题定义:论文旨在解决城市VANET环境中由于物理障碍导致的网络碎片问题。现有基于DRL的UAV部署方法,由于缺乏对道路拓扑结构的语义理解,导致探索效率低下,需要大量的训练样本才能达到较好的性能。这些方法无法有效识别关键路口,从而影响UAV的部署效果。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解和推理能力,将其转化为道路拓扑结构的专家,并将LLM的知识注入到DRL智能体的策略中,从而指导智能体更有效地探索和学习。通过这种语义增强,智能体可以更快地识别关键路口,并优化UAV的部署位置,从而提高网络连接性。
技术框架:SA-DRL框架包含以下几个主要阶段:1) 碎片量化:基于道路拓扑图(RTG)和双连通图(DCG)对网络碎片程度进行量化。2) LLM专家化:通过一个四阶段的流程,将通用的LLM转化为特定领域的拓扑专家。3) 语义增强PPO (SA-PPO):设计SA-PPO算法,利用Logit融合机制将LLM的语义推理结果作为先验知识注入到PPO策略中。4) DRL训练:使用SA-PPO算法训练UAV的部署策略。
关键创新:该论文的关键创新在于将大型语言模型(LLM)的语义理解能力与深度强化学习(DRL)相结合,提出了一种语义增强的DRL框架(SA-DRL)。与传统的DRL方法相比,SA-DRL能够利用LLM对道路拓扑结构的理解,从而更有效地指导智能体的探索和学习。这种方法显著提高了样本效率,并改善了UAV部署的性能。
关键设计:在LLM专家化阶段,论文设计了一个四阶段的流程,包括数据收集、指令微调、奖励建模和策略优化。在SA-PPO算法中,采用了Logit融合机制,将LLM的输出logits与DRL策略网络的输出logits进行融合,从而将LLM的语义推理结果作为先验知识注入到DRL策略中。具体融合方式可能涉及到加权平均或其他融合策略,权重参数需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SA-PPO算法在连接性指标上优于其他基线方法,提升幅度分别达到13.2%和23.5%。更重要的是,SA-PPO算法显著提高了样本效率,仅使用26.6%的训练集就达到了基线性能水平。此外,SA-PPO算法还降低了无人机的能耗,仅为基线的28.2%。这些结果充分验证了SA-DRL框架的有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于城市环境下的无人机辅助车辆网络,例如智能交通管理、应急通信、物流配送等。通过优化无人机的部署位置,可以有效提高车辆网络的连接性,降低通信延迟,从而提升自动驾驶的安全性和效率。此外,该方法还可以扩展到其他需要无人机辅助的无线通信场景,例如灾后救援、环境监测等。
📄 摘要(原文)
Vehicular Ad-hoc Networks (VANETs) are the digital cornerstone of autonomous driving, yet they suffer from severe network fragmentation in urban environments due to physical obstructions. Unmanned Aerial Vehicles (UAVs), with their high mobility, have emerged as a vital solution to bridge these connectivity gaps. However, traditional Deep Reinforcement Learning (DRL)-based UAV deployment strategies lack semantic understanding of road topology, often resulting in blind exploration and sample inefficiency. By contrast, Large Language Models (LLMs) possess powerful reasoning capabilities capable of identifying topological importance, though applying them to control tasks remains challenging. To address this, we propose the Semantic-Augmented DRL (SA-DRL) framework. Firstly, we propose a fragmentation quantification method based on Road Topology Graphs (RTG) and Dual Connected Graphs (DCG). Subsequently, we design a four-stage pipeline to transform a general-purpose LLM into a domain-specific topology expert. Finally, we propose the Semantic-Augmented PPO (SA-PPO) algorithm, which employs a Logit Fusion mechanism to inject the LLM's semantic reasoning directly into the policy as a prior, effectively guiding the agent toward critical intersections. Extensive high-fidelity simulations demonstrate that SA-PPO achieves state-of-the-art performance with remarkable efficiency, reaching baseline performance levels using only 26.6% of the training episodes. Ultimately, SA-PPO improves two key connectivity metrics by 13.2% and 23.5% over competing methods, while reducing energy consumption to just 28.2% of the baseline.