Transformer Actor-Critic for Efficient Freshness-Aware Resource Allocation
作者: Maryam Ansarifard, Mohit K. Sharma, Kishor C. Joshi, George Exarchakos
分类: eess.SY
发布日期: 2026-02-26
备注: \c{opyright} 2026 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses. Accepted for publication in the 2026 IEEE International Conference on Machine Learning for Communication and Networking (ICMLCN)
💡 一句话要点
提出基于Transformer Actor-Critic的资源分配方法,优化URLLC网络中的信息年龄
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 Transformer 信息年龄 资源分配 非正交多址接入 超可靠低延迟通信 注意力机制
📋 核心要点
- 现有无线资源分配方法难以有效处理URLLC中用户异构性和信息时效性需求,尤其是在NOMA场景下。
- 提出基于Transformer的Actor-Critic框架,利用注意力机制学习用户间依赖关系,优化资源分配策略,降低信息年龄。
- 实验表明,该方法能够有效降低平均信息年龄,并且注意力权重分析揭示了模型学习用户优先级的过程。
📝 摘要(中文)
本文针对超可靠低延迟通信(URLLC)中信息时效性问题,提出了一种基于Transformer编码器增强的近端策略优化(PPO)深度强化学习(DRL)框架,用于多用户上行无线网络中基于非正交多址接入(NOMA)的资源分配,以最小化信息年龄(AoI)。该系统需处理用户在任务大小、AoI阈值和惩罚敏感度方面的异构性,并满足NOMA约束。Transformer编码器的注意力机制使智能体能够关注关键用户状态并捕获用户间的依赖关系,从而提高策略性能和可扩展性。仿真结果表明,该方法能够有效降低平均AoI。对注意力权重的分析表明,模型逐渐学会优先考虑高重要性用户,且注意力图在训练初期呈现均匀分布,后期则展现出与用户优先级和NOMA约束对齐的聚焦模式。
🔬 方法详解
问题定义:论文旨在解决多用户上行无线网络中,基于NOMA的资源分配问题,目标是最小化信息年龄(AoI)。现有方法难以有效处理用户在任务大小、AoI阈值和惩罚敏感度方面的异构性,并且难以捕捉用户之间的依赖关系,导致资源分配效率低下。
核心思路:论文的核心思路是利用深度强化学习(DRL)学习最优的资源分配策略。通过引入Transformer编码器,利用其注意力机制来关注关键用户状态,并捕获用户之间的依赖关系,从而更有效地进行资源分配,降低整体的信息年龄。
技术框架:整体框架是一个Actor-Critic架构,采用近端策略优化(PPO)算法进行训练。具体流程如下:首先,智能体观察当前网络状态(包括用户信息、AoI等);然后,Actor网络根据状态输出动作(资源分配策略);接着,环境根据动作更新状态,并返回奖励(与AoI相关);最后,Critic网络评估当前状态的价值,用于指导Actor网络的更新。Transformer编码器被集成到Actor和Critic网络中,用于提取用户状态的特征表示。
关键创新:最重要的技术创新点在于将Transformer编码器引入到DRL框架中,利用其注意力机制来学习用户之间的依赖关系。与传统的DRL方法相比,该方法能够更有效地捕捉用户之间的复杂交互,从而做出更明智的资源分配决策。
关键设计:论文中,状态空间包括用户的任务大小、AoI、AoI阈值等信息。动作空间表示对用户的资源分配比例。奖励函数的设计与AoI直接相关,目标是最小化平均AoI。Transformer编码器的具体结构包括多头自注意力层和前馈神经网络。损失函数包括Actor网络的策略损失和Critic网络的价值损失,以及PPO算法中的裁剪项,以保证策略更新的稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的基于Transformer的PPO算法在降低平均信息年龄方面优于基线方法。通过分析注意力权重,发现模型能够逐渐学习到用户的重要性,并优先为高重要性用户分配资源。注意力图的可视化结果显示,训练后的模型能够根据用户优先级和NOMA约束,形成聚焦的注意力模式。
🎯 应用场景
该研究成果可应用于各种需要超可靠低延迟通信(URLLC)的场景,例如自动驾驶、工业自动化、远程医疗等。通过智能地分配无线资源,可以保证信息的及时性和可靠性,从而提高系统的整体性能和安全性。未来的研究可以进一步探索如何将该方法应用于更复杂的网络环境,例如异构网络和动态网络。
📄 摘要(原文)
Emerging applications such as autonomous driving and industrial automation demand ultra-reliable and low-latency communication (URLLC), where maintaining fresh and timely information is critical. A key performance metric in such systems is the age of information (AoI). This paper addresses AoI minimization in a multi-user uplink wireless network using non-orthogonal multiple access (NOMA), where users offload tasks to a base station. The system must handle user heterogeneity in task sizes, AoI thresholds, and penalty sensitivities, while adhering to NOMA constraints on user scheduling. We propose a deep reinforcement learning (DRL) framework based on proximal policy optimization (PPO), enhanced with a Transformer encoder. The attention mechanism allows the agent to focus on critical user states and capture inter-user dependencies, improving policy performance and scalability. Extensive simulations show that our method reduces average AoI compared to baselines. We also analyze the evolution of attention weights during training and observe that the model progressively learns to prioritize high-importance users. Attention maps reveal meaningful structure: early-stage policies exhibit uniform attention, while later stages show focused patterns aligned with user priority and NOMA constraints. These results highlight the promise of attention-driven DRL for intelligent, priority-aware resource allocation in next-generation wireless systems.