Distributed Beamforming in Massive MIMO Communication for a Constellation of Airborne Platform Stations

📄 arXiv: 2512.23900v1 📥 PDF

作者: Hesam Khoshkbari, Georges Kaddoum, Bassant Selim, Omid Abbasi, Halim Yanikomeroglu

分类: eess.SY

发布日期: 2025-12-29

期刊: ICC 2025 - IEEE International Conference on Communications, Montreal, QC, Canada, 2025, pp. 4383-4388

DOI: 10.1109/ICC52391.2025.11161258


💡 一句话要点

提出基于熵的多智能体DRL分布式波束成形,用于空基平台大规模MIMO通信。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 分布式波束成形 大规模MIMO 非地面网络 多智能体强化学习 深度强化学习 空基平台 信道状态信息 无线通信

📋 核心要点

  1. 现有非地面基站(NTBS)网络面临CSI获取和共享的挑战,尤其是在大规模MIMO系统中,CSI共享开销巨大。
  2. 论文提出一种基于多智能体DRL的分布式波束成形方法,每个空基平台独立决策,无需CSI共享,降低通信开销。
  3. 实验结果表明,该方法在干扰场景下优于传统波束成形技术,并对CSI不完善具有鲁棒性,同时具备良好的可扩展性。

📝 摘要(中文)

本文提出了一种用于空基平台站(APS)星座大规模MIMO网络的分布式波束成形框架。该方法利用基于熵的多智能体深度强化学习(DRL)模型,其中每个APS作为独立智能体,在训练和测试阶段都使用不完美的信道状态信息(CSI)。与传统方法不同,该模型不需要APS之间共享CSI,显著降低了开销。仿真结果表明,该方法优于迫零(ZF)和最大比传输(MRT)技术,尤其是在高干扰场景中,同时对CSI的不完善具有鲁棒性。此外,该框架具有可扩展性,在用户数量增加和各种集群配置下保持稳定的性能。因此,所提出的方法为动态和干扰丰富的NTBS网络提供了有希望的解决方案,从而推进了可扩展且鲁棒的无线解决方案。

🔬 方法详解

问题定义:论文旨在解决空基平台大规模MIMO通信中,由于信道状态信息(CSI)不完善以及CSI共享带来的巨大开销问题。传统集中式波束成形方法需要所有基站共享CSI,这在分布式网络中是不切实际的,尤其是在基站数量庞大时。此外,实际环境中CSI往往是不完美的,这会严重影响波束成形的性能。

核心思路:论文的核心思路是将每个空基平台(APS)视为一个独立的智能体,利用多智能体深度强化学习(DRL)方法,使每个APS能够根据局部观测到的不完美CSI独立进行波束成形决策。通过奖励函数引导智能体学习协作,从而在不需要CSI共享的情况下实现全局性能优化。这种分布式决策方式降低了通信开销,并提高了系统的可扩展性。

技术框架:整体框架包含多个空基平台(APS),每个APS配备大规模MIMO天线阵列。每个APS作为一个独立的智能体,其状态空间包括局部观测到的不完美CSI,动作空间为波束成形向量。智能体通过与环境交互,根据接收到的奖励更新其策略。训练阶段,所有智能体并行学习,最终得到一个分布式的波束成形策略。测试阶段,每个APS根据学习到的策略独立进行波束成形。

关键创新:最重要的技术创新点在于使用基于熵的多智能体DRL方法,实现了在不共享CSI的情况下进行分布式波束成形。与传统的集中式方法相比,该方法显著降低了通信开销,并提高了系统的可扩展性和鲁棒性。此外,基于熵的奖励函数设计鼓励智能体探索不同的策略,从而避免陷入局部最优解。

关键设计:论文采用深度Q网络(DQN)作为每个智能体的策略网络。奖励函数的设计至关重要,它综合考虑了用户的吞吐量、公平性和干扰水平。具体而言,奖励函数包括用户吞吐量最大化项、用户间公平性项以及干扰惩罚项。此外,论文还引入了熵正则化项,鼓励智能体探索不同的策略。网络结构的具体参数(如层数、神经元数量)以及训练参数(如学习率、折扣因子)需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的基于熵的多智能体DRL方法在各种干扰场景下均优于传统的迫零(ZF)和最大比传输(MRT)波束成形技术。在高干扰场景下,该方法能够显著提高用户的吞吐量,并对CSI的不完善具有较强的鲁棒性。此外,实验还验证了该方法的可扩展性,在用户数量增加和集群配置变化的情况下,仍能保持稳定的性能。

🎯 应用场景

该研究成果可应用于未来的非地面网络(NTN),例如高空平台通信、卫星通信等场景。通过分布式波束成形,可以有效提高网络容量、覆盖范围和用户体验,尤其是在偏远地区或应急通信等场景下具有重要价值。此外,该方法还可以应用于无人机集群通信、车载自组织网络等领域,为未来的无线通信提供更灵活、可扩展的解决方案。

📄 摘要(原文)

Non-terrestrial base stations (NTBSs), including high-altitude platform stations (HAPSs) and hot-air balloons (HABs), are integral to next-generation wireless networks, offering coverage in remote areas and enhancing capacity in dense regions. In this paper, we propose a distributed beamforming framework for a massive MIMO network with a constellation of aerial platform stations (APSs). Our approach leverages an entropy-based multi-agent deep reinforcement learning (DRL) model, where each APS operates as an independent agent using imperfect channel state information (CSI) in both training and testing phases. Unlike conventional methods, our model does not require CSI sharing among APSs, significantly reducing overhead. Simulations results demonstrate that our method outperforms zero forcing (ZF) and maximum ratio transmission (MRT) techniques, particularly in high-interference scenarios, while remaining robust to CSI imperfections. Additionally, our framework exhibits scalability, maintaining stable performance over an increasing number of users and various cluster configurations. Therefore, the proposed method holds promise for dynamic and interference-rich NTBS networks, advancing scalable and robust wireless solutions.