Online Learning-based Adaptive Beam Switching for 6G Networks: Enhancing Efficiency and Resilience

📄 arXiv: 2505.08032v2 📥 PDF

作者: Seyed Bagher Hashemi Natanzi, Zhicong Zhu, Bo Tang

分类: cs.NI, cs.AI, cs.LG

发布日期: 2025-05-12 (更新: 2025-12-03)


💡 一句话要点

提出在线学习的自适应波束切换以解决6G网络的稳定性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自适应波束切换 深度强化学习 6G网络 链路稳定性 多臂老虎机 在线学习 信号处理

📋 核心要点

  1. 现有的自适应波束切换方法在高载波频率和用户移动性下,容易导致不稳定的策略和高信令开销。
  2. 本文提出了一种在线深度强化学习框架,通过增强状态表示和稳定性奖励函数,优先考虑长期链路质量。
  3. 在100用户的复杂场景中,所提框架链路稳定性提高约43%,与多臂老虎机基线相比,保持了高吞吐量和可靠性。

📝 摘要(中文)

自适应波束切换对于关键军事和商业6G网络至关重要,但面临高载波频率、用户移动性和频繁阻塞等重大挑战。现有的机器学习解决方案往往侧重于最大化瞬时吞吐量,这可能导致不稳定的策略和高信令开销。本文提出了一种在线深度强化学习(DRL)框架,旨在学习一个操作稳定的策略。通过为DRL代理提供增强的状态表示,包括阻塞历史和以稳定性为中心的奖励函数,我们使其能够优先考虑长期链路质量而非瞬时收益。在一个具有挑战性的100用户场景中进行验证后,我们的代理实现了与反应式多臂老虎机(MAB)基线相当的吞吐量。具体而言,我们提出的框架在链路稳定性方面提高了约43%,与MAB的操作可靠性竞争,同时保持高数据速率。此项工作表明,通过重新定义优化目标为操作稳定性,DRL能够为下一代关键任务网络提供高效、可靠和实时的波束管理解决方案。

🔬 方法详解

问题定义:本文旨在解决6G网络中自适应波束切换的稳定性问题。现有方法往往关注瞬时吞吐量,导致策略不稳定和信令开销过高。

核心思路:提出的在线深度强化学习框架通过引入阻塞历史和稳定性奖励函数,使得DRL代理能够优化长期链路质量,而非短期收益。

技术框架:整体架构包括状态表示模块、奖励函数设计、DRL训练过程和策略评估。状态表示模块集成了用户状态和环境变化信息,奖励函数则强调链路稳定性。

关键创新:最重要的创新在于通过稳定性为中心的奖励设计,使得DRL代理能够在动态环境中保持高效的波束管理,显著提高了链路的稳定性。

关键设计:在参数设置上,采用了适应性学习率和经验回放机制,损失函数设计为结合稳定性和吞吐量的复合目标,网络结构则基于深度Q网络(DQN)进行优化。

📊 实验亮点

实验结果表明,所提框架在链路稳定性方面提高了约43%,与反应式多臂老虎机基线相比,吞吐量保持一致。这一成果展示了通过优化操作稳定性,深度强化学习能够有效支持6G网络的波束管理。

🎯 应用场景

该研究的潜在应用领域包括军事通信、无人驾驶、智能交通和工业自动化等关键任务场景。通过提高波束切换的稳定性和效率,可以显著提升这些领域的通信质量和系统可靠性,推动6G网络的实际部署与应用。

📄 摘要(原文)

Adaptive beam switching is essential for mission-critical military and commercial 6G networks but faces major challenges from high carrier frequencies, user mobility, and frequent blockages. While existing machine learning (ML) solutions often focus on maximizing instantaneous throughput, this can lead to unstable policies with high signaling overhead. This paper presents an online Deep Reinforcement Learning (DRL) framework designed to learn an operationally stable policy. By equipping the DRL agent with an enhanced state representation that includes blockage history, and a stability-centric reward function, we enable it to prioritize long-term link quality over transient gains. Validated in a challenging 100-user scenario using the Sionna library, our agent achieves throughput comparable to a reactive Multi-Armed Bandit (MAB) baseline. Specifically, our proposed framework improves link stability by approximately 43% compared to a vanilla DRL approach, achieving operational reliability competitive with MAB while maintaining high data rates. This work demonstrates that by reframing the optimization goal towards operational stability, DRL can deliver efficient, reliable, and real-time beam management solutions for next-generation mission-critical networks.