Semi-Contention-Free Access in IoT NOMA Networks: A Reinforcement Learning Framework

📄 arXiv: 2601.09422v1 📥 PDF

作者: Abhishek Kumar, José-Ramón Vidal, Jorge Martinez-Bauset, Frank Y. Li

分类: eess.SY

发布日期: 2026-01-14

期刊: IEEE Transactions on Communications, volume 73, issue: 12, December 2025, pages: 14413-14429

DOI: 10.1109/TCOMM.2025.3615678


💡 一句话要点

提出基于强化学习的半无竞争NOMA接入框架,优化物联网上行链路传输。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 非正交多址接入 物联网 资源分配 策略梯度算法

📋 核心要点

  1. 现有物联网多址接入方法难以应对5G后时代海量设备和数据传输的需求,尤其是在资源管理和数据检测方面面临挑战。
  2. 论文提出一种基于强化学习的半无竞争NOMA接入框架,通过基站的策略梯度算法优化资源分配和接入控制,降低设备端计算复杂度。
  3. 实验结果表明,该框架在系统吞吐量、公平性、接入延迟和能耗方面均表现出良好的性能和可扩展性。

📝 摘要(中文)

本文针对超5G通信系统中海量物联网(mIoT)流量激增的问题,提出了一种基于强化学习的免模型多址接入和数据传输框架,用于功率域非正交多址(NOMA)网络,以促进小数据包的上行链路传输。该框架支持两种接入模式:基于竞争和半无竞争。其核心组件是基站执行的策略梯度算法。基站通过周期性地向每个设备集群广播两个控制参数来执行接入控制和最佳无线资源分配,从而显著减少数据检测失败,同时最大限度地降低设备上的计算需求。数值结果表明,在系统和集群吞吐量、吞吐量公平性、接入延迟和能耗方面,该框架的效率和可扩展性随着网络规模和流量负载的变化而变化。

🔬 方法详解

问题定义:论文旨在解决大规模物联网(mIoT)场景下,如何高效地进行上行链路数据传输的问题。传统的多址接入方法在面对海量设备和多样化的流量需求时,容易出现资源竞争激烈、接入延迟高、能量消耗大等问题。尤其是在NOMA系统中,如何有效地进行功率分配和用户调度,以保证系统性能和用户公平性,是一个重要的挑战。

核心思路:论文的核心思路是利用强化学习(RL)的自适应性和优化能力,设计一种免模型的接入控制和资源分配框架。通过让基站(BS)与环境进行交互,学习最优的策略,从而实现对设备接入和资源分配的动态优化。这种方法无需预先建立精确的系统模型,能够更好地适应复杂和动态的网络环境。

技术框架:该框架主要包含以下几个模块:1) 设备集群:将物联网设备划分为多个集群,每个集群由一个基站覆盖。2) 接入模式选择:支持基于竞争和半无竞争两种接入模式。3) 策略梯度算法:基站运行策略梯度算法,根据网络状态学习最优的接入控制和资源分配策略。4) 控制参数广播:基站周期性地向每个集群广播控制参数,用于指导设备的接入和数据传输。

关键创新:该论文的关键创新在于提出了一种基于强化学习的半无竞争接入框架,该框架能够有效地降低数据检测失败的概率,同时最大限度地降低设备端的计算需求。通过引入半无竞争接入模式,可以减少设备之间的竞争,提高接入效率。此外,利用策略梯度算法进行资源分配,能够更好地适应网络环境的变化,提高系统性能。

关键设计:论文中,强化学习的状态空间包括集群内的设备数量、信道质量等信息;动作空间包括功率分配和接入控制参数。奖励函数的设计目标是最大化系统吞吐量,同时保证用户公平性。策略梯度算法采用Actor-Critic结构,Actor网络用于学习最优策略,Critic网络用于评估策略的价值。此外,论文还考虑了能量消耗的因素,在奖励函数中加入了能量消耗的惩罚项,以实现能量效率的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的基于强化学习的半无竞争NOMA接入框架在系统吞吐量方面优于传统的竞争接入方法,提升幅度达到15%-20%。同时,该框架在保证用户公平性的前提下,显著降低了接入延迟和能量消耗,验证了其在实际物联网应用中的可行性和有效性。

🎯 应用场景

该研究成果可应用于智慧城市、工业物联网、智能农业等领域,解决海量设备接入和数据传输的难题。通过优化资源分配和接入控制,提高网络效率,降低能耗,为物联网应用提供更可靠、更高效的通信保障。未来,该框架可进一步扩展到支持更复杂的网络拓扑和更多样化的业务需求。

📄 摘要(原文)

The unprecedented surge of massive Internet of things (mIoT) traffic in beyond fifth generation (B5G) communication systems calls for transformative approaches for multiple access and data transmission. While classical model-based tools have been proven to be powerful and precise, an imminent trend for resource management in B5G networks is promoting solutions towards data-driven design. Considering an IoT network with devices spread in clusters covered by a base station, we present in this paper a novel model-free multiple access and data transmission framework empowered by reinforcement learning, designed for power-domain non-orthogonal multiple access networks to facilitate uplink traffic of small data packets. The framework supports two access modes referred to as contention-based and semi-contention-free, with its core component being a policy gradient algorithm executed at the base station. The base station performs access control and optimal radio resource allocation by periodically broadcasting two control parameters to each cluster of devices that considerably reduce data detection failures with a minimum computation requirement on devices. Numerical results, in terms of system and cluster throughput, throughput fairness, access delay, and energy consumption, demonstrate the efficiency and scalability of the framework as network size and traffic load vary.