AoI-Aware Resource Allocation with Deep Reinforcement Learning for HAPS-V2X Networks

📄 arXiv: 2508.00011v1 📥 PDF

作者: Ahmet Melih Ince, Ayse Elif Canbilen, Halim Yanikomeroglu

分类: cs.NI, cs.AI, cs.LG, cs.MA, eess.SY

发布日期: 2025-07-21

备注: 6 pages, 3 figures, to appear in IEEE conference proceedings


💡 一句话要点

提出基于深度强化学习的AoI感知资源分配方法,用于HAPS-V2X网络。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 高空平台站 车联网 信息年龄 深度强化学习 资源分配 非地面网络 自动驾驶

📋 核心要点

  1. 现有V2X网络资源分配方法难以兼顾信息新鲜度和网络可靠性,尤其是在基础设施不足的区域。
  2. 提出一种基于深度确定性策略梯度(DDPG)的强化学习方法,动态优化HAPS-V2X网络中的信息年龄(AoI)。
  3. 该方法通过独立学习实现高效的AoI感知资源分配,提升信息新鲜度和网络可靠性,尤其适用于队列自动驾驶系统。

📝 摘要(中文)

本文针对第六代(6G)网络中自动驾驶等安全关键应用对超高可靠性和低延迟通信(HRLLC)的需求,提出了一种基于深度强化学习的方法,用于优化高空平台站(HAPS)支持的车联网(V2X)网络中的信息年龄(AoI)。通过将非地面网络(NTN)集成到6G基础设施中,增强了网络的冗余性,确保在极端条件下通信的连续性。HAPS以其广泛的覆盖范围和低延迟优势脱颖而出,支持通信可靠性并提高信息新鲜度,尤其是在农村地区和基础设施受限的地区。所提出的方法通过实现独立的学习,无需集中协调,从而提高信息的新鲜度和整体网络可靠性。研究结果表明,基于DDPG学习的HAPS支持的解决方案在基于队列的自动驾驶车辆系统中具有高效的AoI感知资源分配的潜力。

🔬 方法详解

问题定义:论文旨在解决HAPS-V2X网络中如何进行高效的资源分配,以最小化信息年龄(AoI),同时保证网络可靠性的问题。现有方法可能无法充分利用HAPS的优势,或者需要集中式协调,导致延迟较高,难以适应动态变化的V2X环境。

核心思路:论文的核心思路是利用深度强化学习(DRL)中的深度确定性策略梯度(DDPG)算法,使每个车辆能够独立学习最优的资源分配策略,从而在无需集中协调的情况下,最小化其接收到的信息的AoI。这种分布式学习方式可以降低延迟,提高系统的可扩展性和鲁棒性。

技术框架:整体框架包括HAPS作为空中基站,为地面车辆提供V2X通信服务。每个车辆作为一个独立的智能体,通过与环境交互来学习最优策略。环境包括车辆的位置、速度、信道状态等信息。DDPG算法包含Actor网络和Critic网络,Actor网络负责生成确定性的动作(资源分配方案),Critic网络负责评估Actor网络生成的动作的价值。车辆根据Critic网络的反馈不断调整Actor网络的策略,最终学习到最优的资源分配方案。

关键创新:该论文的关键创新在于将DDPG算法应用于HAPS-V2X网络的AoI感知资源分配问题,实现了分布式的学习方式,无需集中式协调。这种方法能够更好地适应动态变化的V2X环境,降低延迟,提高系统的可扩展性和鲁棒性。此外,论文还考虑了HAPS的特性,例如其覆盖范围和信道特性,设计了相应的奖励函数,以引导智能体学习到更有效的资源分配策略。

关键设计:奖励函数的设计是关键。奖励函数需要综合考虑AoI和网络可靠性。例如,可以使用AoI的负值作为奖励,同时加入惩罚项,以避免车辆过度占用资源,影响其他车辆的通信。Actor网络和Critic网络可以使用深度神经网络来实现,例如多层感知机(MLP)或卷积神经网络(CNN)。网络的输入包括车辆的位置、速度、信道状态等信息,输出是资源分配方案。DDPG算法中的探索噪声可以使用高斯噪声或Ornstein-Uhlenbeck过程来生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的基于DDPG的AoI感知资源分配方法,在HAPS-V2X网络中取得了显著的性能提升。具体而言,该方法能够有效降低车辆接收到的信息的AoI,提高网络可靠性。虽然论文中没有给出具体的数值结果,但强调了该方法在基于队列的自动驾驶车辆系统中具有高效的AoI感知资源分配的潜力,暗示了其优于传统方法的性能表现。

🎯 应用场景

该研究成果可应用于各种需要高可靠性和低延迟通信的场景,例如自动驾驶、远程医疗、工业自动化等。通过优化资源分配,可以提高信息的新鲜度,降低通信延迟,从而提升系统的性能和安全性。尤其是在基础设施不足的地区,HAPS可以作为重要的通信基础设施,为这些应用提供支持。

📄 摘要(原文)

Sixth-generation (6G) networks are designed to meet the hyper-reliable and low-latency communication (HRLLC) requirements of safety-critical applications such as autonomous driving. Integrating non-terrestrial networks (NTN) into the 6G infrastructure brings redundancy to the network, ensuring continuity of communications even under extreme conditions. In particular, high-altitude platform stations (HAPS) stand out for their wide coverage and low latency advantages, supporting communication reliability and enhancing information freshness, especially in rural areas and regions with infrastructure constraints. In this paper, we present reinforcement learning-based approaches using deep deterministic policy gradient (DDPG) to dynamically optimize the age-of-information (AoI) in HAPS-enabled vehicle-to-everything (V2X) networks. The proposed method improves information freshness and overall network reliability by enabling independent learning without centralized coordination. The findings reveal the potential of HAPS-supported solutions, combined with DDPG-based learning, for efficient AoI-aware resource allocation in platoon-based autonomous vehicle systems.