Queue-Aware and Resilient Routing in LEO Satellite Networks Using Multi-Agent Reinforcement Learning

📄 arXiv: 2605.04448v1 📥 PDF

作者: Mudassar Liaq, Mahyar Tajeri, Peng Hu

分类: cs.NI, eess.SY

发布日期: 2026-05-06


💡 一句话要点

提出基于队列感知的多智能体强化学习LEO卫星网络路由方法,提升动态网络环境下的鲁棒性和可扩展性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LEO卫星网络 路由算法 多智能体强化学习 深度强化学习 队列感知

📋 核心要点

  1. LEO卫星网络路由面临拓扑动态、流量变化和链路故障等挑战,传统路由算法难以适应。
  2. 提出队列感知的多智能体深度强化学习框架,每个卫星作为智能体进行分布式路由决策。
  3. 实验表明,该方法在降低开销、管理队列积压和提高鲁棒性方面优于Dijkstra和SARSA算法。

📝 摘要(中文)

本文提出了一种队列感知的多智能体深度强化学习(MA-DRL)框架,用于低地球轨道(LEO)卫星网络中的路由。随着数据需求的快速增长和现代应用对延迟的严格要求,LEO卫星星座作为全球互联网覆盖的新兴解决方案备受关注。然而,由于高度动态的拓扑、时变的网络条件以及对链路故障的敏感性,LEO网络中的路由仍然是一个根本性的挑战。传统的路由算法通常假设静态链路度量,并且无法考虑队列积压或实时系统变化,因此在这种环境中效果较差。该框架将每个卫星建模为一个独立的智能体,负责做出本地路由决策,从而实现分布式和可扩展的解决方案。提出的框架制定了一个延迟感知的优化问题,该问题结合了背景流量、每个卫星的队列动态以及用于提高鲁棒性的弹性评分。评估结果表明,与SARSA和Dijkstra算法相比,该方法在保持竞争性的延迟和弹性评分的同时,显著降低了开销,并有效地管理了队列积压,提高了LEO卫星网络的鲁棒性和可扩展性。

🔬 方法详解

问题定义:LEO卫星网络路由需要应对高动态拓扑、时变流量和链路故障,传统路由算法无法有效处理队列积压和实时变化,导致性能下降。现有方法计算和信令开销大,难以扩展到大规模网络。

核心思路:将LEO卫星网络中的每个卫星建模为独立的智能体,利用多智能体强化学习(MA-DRL)进行分布式路由决策。通过让每个卫星自主学习,适应局部网络状态,从而实现全局优化,提高网络的鲁棒性和可扩展性。

技术框架:该框架包含以下主要模块:1) 环境建模:模拟LEO卫星网络的拓扑结构、链路状态和流量模式。2) 智能体设计:每个卫星配备一个DRL智能体,负责选择下一跳路由。3) 奖励函数设计:综合考虑延迟、队列长度和链路弹性,引导智能体学习最优策略。4) 训练过程:使用分布式训练方法,加速智能体的学习过程。

关键创新:该方法的核心创新在于将队列信息融入到路由决策中,使智能体能够感知网络拥塞情况,并选择避免拥塞的路径。此外,引入了链路弹性评分,提高了网络对链路故障的容错能力。与传统路由算法相比,该方法能够更好地适应动态网络环境,实现更高效的路由。

关键设计:奖励函数的设计至关重要,它直接影响智能体的学习效果。该论文的奖励函数综合考虑了端到端延迟、队列长度和链路弹性。具体而言,延迟采用负延迟值作为奖励,队列长度采用负队列长度作为惩罚,链路弹性采用弹性评分作为奖励。此外,论文还采用了深度Q网络(DQN)作为智能体的决策模型,并使用经验回放和目标网络等技术来提高训练的稳定性和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的MA-DRL路由方法在LEO卫星网络中表现出良好的性能。与Dijkstra算法相比,在保持竞争性的延迟和弹性评分的同时,该方法显著降低了开销(大约是Dijkstra算法在5秒重计算间隔下的50%)。此外,该方法能够有效地管理队列积压,并在增加流量负载的情况下表现出更强的鲁棒性和可扩展性。

🎯 应用场景

该研究成果可应用于LEO卫星互联网的路由优化,提升网络服务质量,降低延迟,提高可靠性。在偏远地区、灾难救援等场景下,LEO卫星网络可以提供重要的通信保障,该研究有助于提升这些场景下的网络性能。此外,该方法也可以推广到其他类型的动态网络路由问题,如车载自组织网络(VANETs)等。

📄 摘要(原文)

With the rapid growth in data demand and stringent latency requirements of modern applications has driven significant interest in Low Earth Orbit (LEO) satellite constellations as an emerging solution for global Internet coverage. However, routing in LEO networks remains a fundamental challenge due to highly dynamic topologies, time-varying traffic conditions, and its susceptibility to link failures. Conventional routing algorithms typically assume static link metrics and fail to account for queue backlogs or real-time system variations, making them less effective in such environments. We propose a queue-aware multi-agent deep reinforcement learning (MA-DRL) framework for routing in LEO satellite networks. Each satellite is modeled as an independent agent responsible for making local routing decisions, enabling a distributed and scalable solution. The proposed framework formulates a latency-aware optimization problem that incorporates background traffic, queue dynamics at each satellite, and a resilience score to improve robustness. We evaluate the proposed approach against the state-action-reward-state-action (SARSA) and Dijkstra algorithms. While Dijkstra achieves the lowest end-to-end latency under ideal conditions, its computational and signaling overhead becomes a significant bottleneck as the network scales. In contrast, our proposed approach incurs significantly lower overhead (approximately 50% of Dijkstra at a 5 s recalculation interval), scales efficiently with network size, and effectively manages queue backlogs and resilience under increasing traffic load, demonstrating enhanced robustness and scalability in LEO satellite networks while maintaining competitive latency and resilience scores.