Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse

📄 arXiv: 2502.14741v2 📥 PDF

作者: Michael Doherty, Alejandra Beghelli

分类: cs.NI, cs.LG, eess.SY

发布日期: 2025-02-20 (更新: 2025-04-18)


💡 一句话要点

提出基于图注意力网络的强化学习方法,解决光路复用下的路由和波长分配问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 图注意力网络 路由和波长分配 光路复用 光通信网络

📋 核心要点

  1. 现有研究较少关注固定栅格、灵活速率转发器网络中的光路复用路由和波长分配问题,该问题在实际生产系统中具有重要意义。
  2. 论文提出使用图注意力网络增强的强化学习方法,利用图结构数据进行策略学习,从而优化光路复用下的路由和波长分配。
  3. 实验表明,该方法在吞吐量上优于现有强化学习方法和启发式算法,但提升幅度较小,表明该问题具有挑战性。

📝 摘要(中文)

本文研究了固定栅格、灵活速率转发器网络中的路由和波长分配问题,并考虑了光路复用(RWA-LR)。针对该问题,首先对启发式算法进行了基准测试,结果表明按跳数而非总长度对候选路径排序可提高6%的吞吐量。然后,提出了一种基于图注意力网络的强化学习(RL)方法,用于RWA-LR,其中图注意力网络被用于策略和价值函数,以利用图结构数据。实验结果表明,该方法优于先前的最先进RL方法2.5%(平均额外吞吐量17.4 Tbps),并且优于最佳启发式算法1.2%(平均额外吞吐量8.5 Tbps)。尽管有提升,但这种边际收益也突显了在长时程资源分配任务上学习有效RL策略的难度。

🔬 方法详解

问题定义:论文旨在解决光路复用(RWA-LR)场景下的路由和波长分配问题。现有方法,特别是针对固定栅格、灵活速率转发器网络的RWA-LR问题,研究较少。已有的强化学习方法性能有待提升,启发式算法难以达到最优。

核心思路:论文的核心思路是利用强化学习自动学习路由和波长分配策略,并通过图注意力网络来处理网络拓扑的图结构数据。图注意力机制能够使智能体关注网络中的关键节点和链路,从而做出更明智的决策。

技术框架:整体框架包括一个强化学习智能体,该智能体与网络环境交互,选择路由和波长分配方案。智能体的策略和价值函数由图注意力网络实现。具体流程为:智能体接收网络状态(例如,链路负载、可用波长),通过图注意力网络计算动作概率,选择动作(即路由和波长),执行动作后获得奖励,并更新策略和价值函数。

关键创新:关键创新在于将图注意力网络引入到强化学习框架中,用于解决RWA-LR问题。与传统的强化学习方法相比,图注意力网络能够更好地捕捉网络拓扑的结构信息,从而学习到更有效的路由和波长分配策略。

关键设计:论文使用了特定的奖励函数来鼓励智能体选择高效的路由和波长分配方案,例如,奖励可以是成功建立光路的数量或网络吞吐量的增加。图注意力网络的具体结构(例如,层数、注意力头数)以及训练参数(例如,学习率、折扣因子)需要根据具体网络拓扑和流量需求进行调整。论文开源了代码,方便复现和进一步研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的基于图注意力网络的强化学习方法在RWA-LR问题上优于先前的最先进RL方法2.5%(平均额外吞吐量17.4 Tbps),并且优于最佳启发式算法1.2%(平均额外吞吐量8.5 Tbps)。虽然提升幅度相对较小,但考虑到该问题的复杂性,以及长时程资源分配任务的挑战性,该结果仍然具有重要意义。

🎯 应用场景

该研究成果可应用于光通信网络的设计和优化,特别是固定栅格、灵活速率转发器网络。通过智能化的路由和波长分配,可以提高网络资源的利用率,降低网络拥塞,提升用户体验。该方法还可扩展到其他资源分配问题,例如云计算资源调度、无线网络频谱分配等。

📄 摘要(原文)

Many works have investigated reinforcement learning (RL) for routing and spectrum assignment on flex-grid networks but only one work to date has examined RL for fixed-grid with flex-rate transponders, despite production systems using this paradigm. Flex-rate transponders allow existing lightpaths to accommodate new services, a task we term routing and wavelength assignment with lightpath reuse (RWA-LR). We re-examine this problem and present a thorough benchmarking of heuristic algorithms for RWA-LR, which are shown to have 6% increased throughput when candidate paths are ordered by number of hops, rather than total length. We train an RL agent for RWA-LR with graph attention networks for the policy and value functions to exploit the graph-structured data. We provide details of our methodology and open source all of our code for reproduction. We outperform the previous state-of-the-art RL approach by 2.5% (17.4 Tbps mean additional throughput) and the best heuristic by 1.2% (8.5 Tbps mean additional throughput). This marginal gain highlights the difficulty in learning effective RL policies on long horizon resource allocation tasks.