Dual-Mind World Models: A General Framework for Learning in Dynamic Wireless Networks

📄 arXiv: 2510.24546v1 📥 PDF

作者: Lingyi Wang, Rashed Shelim, Walid Saad, Naren Ramakrishnan

分类: cs.IT, cs.LG

发布日期: 2025-10-28


💡 一句话要点

提出双脑世界模型,解决动态无线网络中数据低效和泛化性差的问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双脑模型 世界模型 强化学习 无线网络 毫米波V2X 链路调度 动态环境

📋 核心要点

  1. 现有无线网络中的强化学习方法数据效率低,泛化能力差,无法适应动态变化的网络状态。
  2. 论文提出双脑世界模型,结合模式驱动和逻辑驱动的组件,学习无线网络的动态和逻辑,进行长期链路调度。
  3. 实验结果表明,该模型在数据效率、泛化性和适应性方面均优于现有强化学习方法。

📝 摘要(中文)

本文提出了一种新颖的基于双脑世界模型的学习框架,旨在优化具有挑战性的毫米波V2X场景中的完整性加权信息年龄(CAoI)。受到认知心理学的启发,所提出的双脑世界模型包含一个模式驱动的System 1组件和一个逻辑驱动的System 2组件,以学习无线网络的动态和逻辑,并在可靠的想象轨迹上提供长期链路调度。链路调度通过端到端可微的想象轨迹学习,这些轨迹在扩展的时间范围内具有逻辑一致性,而不是依赖于从环境交互中获得的无线数据。此外,通过想象展开,所提出的世界模型可以联合推理网络状态并规划链路调度。在没有观察的间隔期间,该方法仍然能够做出有效的决策。在基于Sionna的真实模拟器上进行了广泛的实验,该模拟器具有真实的物理信道、光线追踪和具有材料属性的场景对象。仿真结果表明,与最先进的RL基线以及仅具有System 1的世界模型方法相比,所提出的世界模型在数据效率方面取得了显着提高,并且实现了对未见环境的强大泛化和适应。

🔬 方法详解

问题定义:现有基于强化学习的无线网络优化方法,无论是无模型强化学习(MFRL)还是基于模型的强化学习(MBRL),都存在数据效率低和泛化能力差的问题。它们仅仅捕捉无线数据的统计模式,而忽略了潜在的物理规律和逻辑,导致无法推广到新的网络状态,尤其是在高动态和需要长期规划的复杂无线网络中。

核心思路:论文的核心思路是借鉴认知心理学中的双脑理论,构建一个包含System 1(模式驱动)和System 2(逻辑驱动)的双脑世界模型。System 1负责快速、直觉地学习无线网络的统计模式,System 2负责学习网络的物理规律和逻辑关系。通过结合两种思维模式,模型能够更好地理解无线网络的动态,并进行长期规划。

技术框架:该框架包含以下主要模块:1. 环境交互:智能体与无线网络环境交互,收集数据。2. 双脑世界模型:包含System 1和System 2两个组件,分别学习网络的统计模式和逻辑关系。3. 想象展开:利用学习到的世界模型,在想象的环境中进行长期规划,生成想象轨迹。4. 链路调度:根据想象轨迹,制定链路调度策略。5. 策略优化:使用强化学习算法优化链路调度策略。

关键创新:最重要的创新点在于提出了双脑世界模型,将模式驱动和逻辑驱动的学习方式结合起来,从而更好地理解无线网络的动态。与现有方法相比,该模型能够更好地泛化到新的网络状态,并进行长期规划。此外,通过想象展开,模型可以在没有实际观测的情况下进行决策,提高了数据效率。

关键设计:System 1可能采用神经网络等模型来学习统计模式,System 2可能采用基于规则或知识图谱的方法来学习逻辑关系。损失函数的设计需要考虑System 1和System 2的平衡,以及想象轨迹的逻辑一致性。链路调度策略可以使用深度强化学习算法进行优化,例如PPO或SAC。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的双脑世界模型在数据效率方面取得了显著提高,并且实现了对未见环境的强大泛化和适应。与最先进的RL基线以及仅具有System 1的世界模型方法相比,该模型在CAoI指标上取得了显著的性能提升,证明了其在动态无线网络中的有效性。

🎯 应用场景

该研究成果可应用于各种动态无线网络场景,例如毫米波V2X通信、无人机网络、智能交通系统等。通过提高数据效率和泛化能力,可以降低网络部署和维护成本,提高网络性能和服务质量,为用户提供更可靠、更高效的无线通信体验。未来,该方法还可以扩展到其他复杂系统,例如机器人控制、智能制造等。

📄 摘要(原文)

Despite the popularity of reinforcement learning (RL) in wireless networks, existing approaches that rely on model-free RL (MFRL) and model-based RL (MBRL) are data inefficient and short-sighted. Such RL-based solutions cannot generalize to novel network states since they capture only statistical patterns rather than the underlying physics and logic from wireless data. These limitations become particularly challenging in complex wireless networks with high dynamics and long-term planning requirements. To address these limitations, in this paper, a novel dual-mind world model-based learning framework is proposed with the goal of optimizing completeness-weighted age of information (CAoI) in a challenging mmWave V2X scenario. Inspired by cognitive psychology, the proposed dual-mind world model encompasses a pattern-driven System 1 component and a logic-driven System 2 component to learn dynamics and logic of the wireless network, and to provide long-term link scheduling over reliable imagined trajectories. Link scheduling is learned through end-to-end differentiable imagined trajectories with logical consistency over an extended horizon rather than relying on wireless data obtained from environment interactions. Moreover, through imagination rollouts, the proposed world model can jointly reason network states and plan link scheduling. During intervals without observations, the proposed method remains capable of making efficient decisions. Extensive experiments are conducted on a realistic simulator based on Sionna with real-world physical channel, ray-tracing, and scene objects with material properties. Simulation results show that the proposed world model achieves a significant improvement in data efficiency and achieves strong generalization and adaptation to unseen environments, compared to the state-of-the-art RL baselines, and the world model approach with only System 1.