Learning Ad Hoc Network Dynamics via Graph-Structured World Models

📄 arXiv: 2604.14811v1 📥 PDF

作者: Can Karacelebi, Yusuf Talha Sahin, Elif Surer, Ertan Onur

分类: cs.LG, cs.MA, cs.NI

发布日期: 2026-04-16

备注: 6 pages, 4 figures. Submitted to the IEEE Global Communications Conference (GLOBECOM) 2026


💡 一句话要点

提出G-RSSM,通过图结构世界模型学习Ad hoc网络动态,用于size无关的节点决策。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Ad hoc网络 图神经网络 循环神经网络 世界模型 多头注意力 强化学习 无线通信

📋 核心要点

  1. Ad hoc网络动态建模困难,现有方法或需在线交互,或丢失节点结构信息。
  2. G-RSSM通过图结构建模节点状态,利用多头注意力学习节点间动态关系。
  3. 在多种Ad hoc网络场景下,仅需少量节点训练,即可泛化至大规模网络,保持高连通性。

📝 摘要(中文)

Ad hoc无线网络呈现出复杂的、内在的和耦合的动态特性,如节点移动性、能量耗尽和拓扑变化,这些难以进行分析建模。无模型的深度强化学习需要持续的在线交互,而现有的基于模型的方法使用扁平的状态表示,丢失了每个节点的结构信息。因此,我们提出了G-RSSM,一种图结构的循环状态空间模型,它维护每个节点的潜在状态,并通过跨节点的多头注意力机制,从离线轨迹中联合学习动态。我们将该方法应用于下游的聚类任务,其中簇头选择策略完全通过在学习到的世界模型中进行想象的rollout来训练。在涵盖MANET、VANET、FANET、WSN和战术网络的27个评估场景中,节点数量从N=30到1000不等,学习到的策略仅在N=50的情况下进行训练,也能保持高连通性。本文提出了第一个应用于size无关无线ad hoc网络中组合式节点决策的多物理场图结构世界模型。

🔬 方法详解

问题定义:Ad hoc无线网络中的节点移动性、能量耗尽和拓扑变化等动态特性难以建模。现有的无模型强化学习方法需要大量的在线交互,成本高昂。基于模型的方法虽然可以离线学习,但通常使用扁平的状态表示,忽略了每个节点的独立状态和节点间的关系,导致模型泛化能力差。

核心思路:论文的核心思路是利用图结构来表示Ad hoc网络,每个节点对应图中的一个节点,节点之间的连接表示网络拓扑关系。通过图神经网络学习每个节点的潜在状态,并利用多头注意力机制建模节点间的交互,从而学习网络的动态特性。这种方法既可以离线学习,又可以保留节点的结构信息,提高模型的泛化能力。

技术框架:G-RSSM (Graph-structured Recurrent State Space Model) 包含以下主要模块:1)图嵌入模块:将每个节点的初始状态(如位置、能量等)嵌入到高维空间中。2)循环状态更新模块:使用循环神经网络(如GRU)更新每个节点的潜在状态,考虑节点自身的状态和来自其他节点的信息。3)多头注意力模块:计算节点之间的注意力权重,用于聚合来自其他节点的信息。4)预测模块:根据节点的潜在状态预测未来的网络状态。整个框架通过变分自编码器(VAE)进行训练,目标是最大化观测数据的似然函数。

关键创新:论文的关键创新在于提出了图结构的循环状态空间模型G-RSSM,将图神经网络和循环神经网络结合起来,用于学习Ad hoc网络的动态特性。与传统的扁平状态表示方法相比,G-RSSM可以更好地保留节点的结构信息,提高模型的泛化能力。此外,论文还提出了使用多头注意力机制建模节点间的交互,可以更好地捕捉节点间的复杂关系。

关键设计:G-RSSM使用GRU作为循环状态更新模块,使用多头注意力机制建模节点间的交互。损失函数包括重构损失和KL散度损失,其中重构损失用于衡量模型预测的网络状态与真实状态的差异,KL散度损失用于正则化潜在状态的分布。实验中,节点数量N从30到1000不等,训练时使用N=50的网络。多头注意力的头数为8。优化器使用Adam,学习率为0.001。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,G-RSSM在各种Ad hoc网络场景下都取得了良好的性能。在节点数量从N=30到1000不等的网络中,仅使用N=50的网络进行训练,学习到的策略也能保持高连通性。这表明G-RSSM具有良好的泛化能力,可以应用于大规模的Ad hoc网络。此外,G-RSSM在聚类任务中也取得了显著的性能提升,表明其可以有效地学习网络的动态特性。

🎯 应用场景

该研究成果可应用于各种Ad hoc无线网络,如移动自组网(MANET)、车载自组网(VANET)、无人机自组网(FANET)、无线传感器网络(WSN)和战术网络等。通过学习网络的动态特性,可以优化网络拓扑结构、提高网络连通性、降低能量消耗,从而提高网络的性能和可靠性。该研究对于提高无线通信系统的智能化水平具有重要意义。

📄 摘要(原文)

Ad hoc wireless networks exhibit complex, innate and coupled dynamics: node mobility, energy depletion and topology change that are difficult to model analytically. Model-free deep reinforcement learning requires sustained online interaction whereas existing model based approaches use flat state representations that lose per node structure. Therefore we propose G-RSSM, a graph structured recurrent state space model that maintains per node latent states with cross node multi head attention to learn the dynamics jointly from offline trajectories. We apply the proposed method to the downstream task clustering where a cluster head selection policy trains entirely through imagined rollouts in the learned world model. Across 27 evaluation scenarios spanning MANET, VANET, FANET, WSN and tactical networks with N=30 to 1000 nodes, the learned policy maintains high connectivity with only trained for N=50. Herein, we propose the first multi physics graph structured world model applied to combinatorial per node decision making in size agnostic wireless ad hoc networks.