A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence

📄 arXiv: 2605.00457v1 📥 PDF

作者: Po-Heng Chou, Yi-Fang Yu, Shou-Yu Chen, Chiapin Wang

分类: cs.NI, cs.LG, eess.SY

发布日期: 2026-05-01

备注: 12 pages, 13 figures, 1 table, submitted to IEEE Systems Journal


💡 一句话要点

提出策略驱动的DRL框架,用于NR-U/Wi-Fi共存系统级权衡控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: NR-U Wi-Fi共存 深度强化学习 策略驱动 TXOP控制 公平性 吞吐量

📋 核心要点

  1. NR-U和Wi-Fi共存时,异构信道接入机制导致频谱利用不平衡,Wi-Fi性能下降,需要有效的资源协调。
  2. 提出一种策略驱动的DRL框架,通过奖励函数设计引入策略层,显式控制公平性、吞吐量和服务质量之间的权衡。
  3. 仿真结果表明,该框架在保证公平性的前提下,显著提高了吞吐量和系统效用,验证了策略驱动控制的有效性。

📝 摘要(中文)

本文提出了一种策略驱动的深度强化学习(DRL)框架,用于自适应TXOP控制,以解决NR-U和Wi-Fi在非授权频谱中共存时产生的系统级资源协调问题。异构信道接入机制导致频谱利用率严重失衡,并降低了Wi-Fi性能。该框架将共存过程建模为马尔可夫决策过程(MDP),并使用深度Q网络(DQN)通过在线交互学习控制策略。通过奖励函数设计引入策略层是关键贡献,从而能够显式控制公平性、吞吐量和服务质量(QoS)之间的系统级权衡。开发了绝对公平、适度公平和基于效用的公平三种策略,以实现不同的运行点。仿真结果表明,所提出的框架在严格的公平性控制下实现了高于0.9的Jain公平性指数。与绝对公平性相比,适度公平性将总吞吐量提高了68.22%,而基于效用的策略进一步将效用提高了177.6%。这些结果表明,策略驱动的控制为管理异构共存网络中的权衡提供了一种灵活有效的解决方案。

🔬 方法详解

问题定义:NR-U和Wi-Fi在非授权频谱中共存时,由于信道接入机制的差异,导致频谱资源利用不均衡,Wi-Fi性能受到影响。现有方法难以在公平性、吞吐量和服务质量(QoS)之间进行有效的权衡控制。

核心思路:通过深度强化学习(DRL)方法,学习一种自适应的TXOP(传输机会)控制策略,从而动态调整NR-U的资源占用,以优化整体系统性能。核心在于通过奖励函数的设计,将不同的系统级策略(如公平性优先、吞吐量优先等)融入到DRL的训练过程中,实现策略驱动的权衡控制。

技术框架:该框架将NR-U和Wi-Fi的共存过程建模为一个马尔可夫决策过程(MDP)。状态空间包括信道占用情况、Wi-Fi性能指标等;动作空间为NR-U的TXOP大小调整;奖励函数则根据不同的策略目标(绝对公平、适度公平、基于效用的公平)进行设计。使用深度Q网络(DQN)作为DRL智能体,通过与环境的在线交互学习最优的控制策略。

关键创新:该论文的关键创新在于引入了“策略层”的概念,通过奖励函数的设计,将不同的系统级策略显式地融入到DRL的训练过程中。这使得DRL智能体能够根据预设的策略目标,学习到相应的控制行为,从而实现对公平性、吞吐量和QoS之间的灵活权衡。与传统的DRL方法相比,该方法具有更强的可控性和可解释性。

关键设计:奖励函数的设计是关键。例如,在绝对公平策略下,奖励函数主要关注NR-U和Wi-Fi之间的公平性指标(如Jain公平性指数);在适度公平策略下,奖励函数则同时考虑公平性和吞吐量;在基于效用的公平策略下,奖励函数则最大化系统的整体效用。DQN的网络结构采用多层感知机(MLP),输入为状态空间,输出为每个动作对应的Q值。训练过程中使用经验回放和目标网络等技术来提高训练的稳定性和收敛速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,在严格的公平性控制下,该框架实现了高于0.9的Jain公平性指数。与绝对公平策略相比,适度公平策略将总吞吐量提高了68.22%,而基于效用的策略进一步将系统效用提高了177.6%。这些结果表明,该方法能够在保证公平性的前提下,显著提高吞吐量和系统效用。

🎯 应用场景

该研究成果可应用于实际的NR-U和Wi-Fi共存场景,例如智能家居、企业网络、工业物联网等。通过自适应地调整NR-U的资源占用,可以有效提升整体网络的性能和用户体验,避免因NR-U过度占用资源而导致Wi-Fi性能下降的问题。该方法还可扩展到其他异构无线网络的共存场景,具有广泛的应用前景。

📄 摘要(原文)

The coexistence of NR-U and Wi-Fi in unlicensed spectrum introduces a system-level resource coordination problem, where heterogeneous channel access mechanisms lead to a significant imbalance in spectrum utilization and degraded Wi-Fi performance. To address this challenge, we propose a policy-driven deep reinforcement learning (DRL) framework for adaptive TXOP control, in which the coexistence process is formulated as a Markov decision process (MDP) and a deep Q-network (DQN) learns control policies through online interaction. A key contribution is the introduction of a policy layer via reward design, enabling explicit control of system-level tradeoffs among fairness, throughput, and quality of service (QoS). Three policies, namely absolute fairness, moderate fairness, and utility-based fairness, are developed to achieve different operating points. Simulation results show that the proposed framework achieves a Jain fairness index above 0.9 under strict fairness control. Compared to absolute fairness, moderate fairness improves aggregate throughput by 68.22%, while the utility-based policy further enhances utility by 177.6%. These results demonstrate that policy-driven control provides a flexible and effective solution for managing tradeoffs in heterogeneous coexistence networks.