Transformer Actor-Critic for Efficient Freshness-Aware Resource Allocation

📄 arXiv: 2602.22774 📥 PDF

作者: Maryam Ansarifard, Mohit K. Sharma, Kishor C. Joshi, George Exarchakos

分类: eess.SY

发布日期: 2026-02-28


💡 一句话要点

提出Transformer Actor-Critic算法,解决URLLC中新鲜度感知的资源分配问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 Transformer 信息年龄 非正交多址接入 超可靠低延迟通信 资源分配 注意力机制

📋 核心要点

  1. 现有无线资源分配方法难以兼顾用户异构性、信息新鲜度和NOMA约束,导致URLLC系统性能受限。
  2. 提出基于Transformer的Actor-Critic算法,利用注意力机制学习用户间依赖关系,优化资源分配策略,最小化平均AoI。
  3. 实验表明,该方法显著降低了平均AoI,并能根据用户优先级动态调整资源分配,验证了其有效性和可扩展性。

📝 摘要(中文)

本文针对超可靠低延迟通信(URLLC)中信息新鲜度(AoI)最小化问题,提出了一种基于Transformer编码器的深度强化学习(DRL)框架。该框架应用于多用户上行无线网络,采用非正交多址接入(NOMA)技术,处理用户在任务大小、AoI阈值和惩罚敏感度方面的异构性,并满足NOMA约束。该方法基于近端策略优化(PPO)算法,利用Transformer编码器的注意力机制,使智能体能够关注关键用户状态并捕获用户间的依赖关系,从而提高策略性能和可扩展性。仿真结果表明,该方法能够有效降低平均AoI。此外,通过分析训练过程中注意力权重的演变,发现模型逐渐学会优先考虑高优先级用户。注意力图谱显示,早期策略表现出均匀的注意力,而后期策略则表现出与用户优先级和NOMA约束对齐的聚焦模式。这些结果突显了注意力驱动的DRL在下一代无线系统中智能、优先级感知的资源分配方面的潜力。

🔬 方法详解

问题定义:论文旨在解决多用户上行无线网络中,基于NOMA的资源分配问题,目标是最小化所有用户的平均信息年龄(AoI)。现有方法难以有效处理用户在任务大小、AoI阈值和惩罚敏感度方面的异构性,同时满足NOMA的功率分配约束,导致系统性能下降。

核心思路:论文的核心思路是利用深度强化学习(DRL)方法,学习一个能够根据用户状态动态调整资源分配的策略。通过引入Transformer编码器,利用其注意力机制来捕获用户之间的依赖关系,从而更好地进行资源分配,降低整体的AoI。

技术框架:整体框架是一个Actor-Critic架构,基于近端策略优化(PPO)算法。Actor网络负责生成资源分配策略,Critic网络负责评估当前策略的价值。Transformer编码器被集成到Actor网络中,用于处理用户状态信息,并生成注意力权重,指导资源分配。具体流程包括:收集用户状态信息,通过Transformer编码器生成注意力权重,Actor网络根据注意力权重生成资源分配策略,Critic网络评估策略价值,PPO算法更新Actor和Critic网络参数。

关键创新:最重要的技术创新点是将Transformer编码器引入到DRL框架中,利用其注意力机制来捕获用户之间的依赖关系。与传统的DRL方法相比,该方法能够更好地处理用户异构性,并根据用户优先级动态调整资源分配,从而显著降低平均AoI。

关键设计:论文使用PPO算法作为基础的DRL算法,Actor和Critic网络都采用多层感知机(MLP)结构。Transformer编码器的输入是用户状态信息,包括任务大小、AoI阈值和惩罚敏感度等。注意力权重的计算采用Scaled Dot-Product Attention机制。损失函数包括PPO的clip loss和value loss。训练过程中,通过调整超参数,如学习率、折扣因子和clip参数,来优化模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的基于Transformer的Actor-Critic算法能够显著降低平均AoI。与基线方法相比,该方法在不同用户数量和网络条件下均表现出更优的性能。通过分析注意力权重,发现模型能够学习到用户优先级,并根据优先级动态调整资源分配。例如,在高优先级用户需要紧急传输数据时,模型会分配更多的资源给该用户,从而保证信息的及时传输。

🎯 应用场景

该研究成果可应用于各种需要超可靠低延迟通信(URLLC)的场景,如自动驾驶、工业自动化、远程医疗等。通过智能地分配无线资源,可以保证关键信息的及时传输,提高系统的可靠性和效率,为这些新兴应用提供有力支持。未来,该方法还可以扩展到更复杂的网络环境,如异构网络和动态网络。

📄 摘要(原文)

Emerging applications such as autonomous driving and industrial automation demand ultra-reliable and low-latency communication (URLLC), where maintaining fresh and timely information is critical. A key performance metric in such systems is the age of information (AoI). This paper addresses AoI minimization in a multi-user uplink wireless network using non-orthogonal multiple access (NOMA), where users offload tasks to a base station. The system must handle user heterogeneity in task sizes, AoI thresholds, and penalty sensitivities, while adhering to NOMA constraints on user scheduling. We propose a deep reinforcement learning (DRL) framework based on proximal policy optimization (PPO), enhanced with a Transformer encoder. The attention mechanism allows the agent to focus on critical user states and capture inter-user dependencies, improving policy performance and scalability. Extensive simulations show that our method reduces average AoI compared to baselines. We also analyze the evolution of attention weights during training and observe that the model progressively learns to prioritize high-importance users. Attention maps reveal meaningful structure: early-stage policies exhibit uniform attention, while later stages show focused patterns aligned with user priority and NOMA constraints. These results highlight the promise of attention-driven DRL for intelligent, priority-aware resource allocation in next-generation wireless systems.