Event-Driven Temporal Graph Networks for Asynchronous Multi-Agent Cyber Defense in NetForge_RL
作者: Igor Jankowski
分类: cs.LG, cs.MA
发布日期: 2026-04-10
备注: 26 pages, 14 figures, 5 tables
💡 一句话要点
提出CT-GMARL,用于NetForge_RL中异步多智能体网络防御,显著提升防御效果。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体强化学习 网络安全 Sim2Real 神经常微分方程 图神经网络 异步事件处理 连续时间模型
📋 核心要点
- 现有网络攻防模拟器抽象了网络协议物理特性,依赖同步时钟,并提供干净的状态向量,无法真实反映实际环境的噪声遥测数据。
- 提出CT-GMARL,利用神经常微分方程处理不规则采样的警报,解决连续时间部分可观测半马尔可夫决策过程中的策略学习问题。
- 实验表明,CT-GMARL在防御奖励和恢复服务数量上显著优于现有方法,并在真实Docker环境中实现了零样本迁移。
📝 摘要(中文)
本文提出了NetForge_RL,一个高保真网络攻防模拟器,旨在解决多智能体强化学习(MARL)策略从模拟网络战争游戏到实际安全运营中心(SOC)的迁移难题。NetForge_RL将网络防御重新定义为一个异步、连续时间的部分可观测半马尔可夫决策过程(POSMDP),并强制执行零信任网络访问(ZTNA)约束,要求防御者处理NLP编码的SIEM遥测数据。NetForge通过双模引擎弥合了Sim2Real差距,允许在高吞吐量模拟环境中进行MARL训练,并在Docker环境中针对真实漏洞进行零样本评估。为了应对这种连续时间POSMDP,本文提出了连续时间图MARL(CT-GMARL),利用固定步长的神经常微分方程(ODE)处理不规则采样的警报。实验结果表明,CT-GMARL的防御奖励比R-MAPPO和QMIX分别提高了2.0倍和2.1倍,并且恢复的受损服务数量是最佳基线的12倍。在零样本迁移到Docker环境后,CT-GMARL策略实现了98,026的中位数奖励,验证了Sim2Real桥梁的有效性。
🔬 方法详解
问题定义:现有MARL方法在网络安全领域的应用受限于Sim2Real差距,即模拟环境与真实环境的差异。传统的网络攻防模拟器通常是同步的,状态表示是理想化的,缺乏真实网络环境中的噪声和异步事件。这导致在模拟环境中训练的策略难以直接应用于实际的安全运营中心。
核心思路:本文的核心思路是构建一个高保真的网络攻防模拟器NetForge_RL,并设计一种能够处理异步事件和连续时间状态的MARL算法CT-GMARL。NetForge_RL通过双模引擎实现模拟环境和真实环境的桥接,CT-GMARL则利用神经常微分方程处理不规则采样的警报,从而提高策略在真实环境中的泛化能力。
技术框架:NetForge_RL模拟器采用双模引擎,支持在高吞吐量模拟环境中进行MARL训练,并在Docker环境中针对真实漏洞进行零样本评估。CT-GMARL算法基于图神经网络,用于处理网络拓扑结构和事件之间的关系。算法使用固定步长的神经常微分方程(ODE)来处理不规则采样的警报,并输出连续时间状态的表示。最终,智能体根据状态表示选择防御动作。
关键创新:本文的关键创新在于NetForge_RL模拟器和CT-GMARL算法的结合。NetForge_RL通过高保真模拟和双模引擎弥合了Sim2Real差距,CT-GMARL则通过神经常微分方程解决了异步事件处理和连续时间状态表示的问题。与现有方法相比,CT-GMARL能够更好地适应真实网络环境的复杂性和不确定性。
关键设计:CT-GMARL算法的关键设计包括:1) 使用图神经网络对网络拓扑结构和事件之间的关系进行建模;2) 使用神经常微分方程(ODE)处理不规则采样的警报,并输出连续时间状态的表示;3) 使用固定步长的ODE求解器,以保证训练的稳定性和效率;4) 损失函数的设计需要考虑防御奖励、风险规避和网络效用最大化等因素。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CT-GMARL在NetForge_RL模拟器中取得了显著的性能提升,其防御奖励比R-MAPPO和QMIX分别提高了2.0倍和2.1倍。更重要的是,CT-GMARL恢复的受损服务数量是最佳基线的12倍,避免了“焦土”策略。在零样本迁移到真实Docker环境后,CT-GMARL策略实现了98,026的中位数奖励,验证了Sim2Real桥梁的有效性。
🎯 应用场景
该研究成果可应用于自动化网络安全防御系统,帮助安全运营中心(SOC)更有效地检测和应对网络攻击。通过高保真模拟环境进行策略训练,并实现零样本迁移到真实环境,可以显著降低部署成本和风险。此外,该方法还可以扩展到其他需要处理异步事件和连续时间状态的多智能体系统,例如智能交通、金融交易等。
📄 摘要(原文)
The transition of Multi-Agent Reinforcement Learning (MARL) policies from simulated cyber wargames to operational Security Operations Centers (SOCs) is fundamentally bottlenecked by the Sim2Real gap. Legacy simulators abstract away network protocol physics, rely on synchronous ticks, and provide clean state vectors rather than authentic, noisy telemetry. To resolve these limitations, we introduce NetForge_RL: a high-fidelity cyber operations simulator that reformulates network defense as an asynchronous, continuous-time Partially Observable Semi-Markov Decision Process (POSMDP). NetForge enforces Zero-Trust Network Access (ZTNA) constraints and requires defenders to process NLP-encoded SIEM telemetry. Crucially, NetForge bridges the Sim2Real gap natively via a dual-mode engine, allowing high-throughput MARL training in a mock hypervisor and zero-shot evaluation against live exploits in a Docker hypervisor. To navigate this continuous-time POSMDP, we propose Continuous-Time Graph MARL (CT-GMARL), utilizing fixed-step Neural Ordinary Differential Equations (ODEs) to process irregularly sampled alerts. We evaluate our framework against discrete baselines (R-MAPPO, QMIX). Empirical results demonstrate that CT-GMARL achieves a converged median Blue reward of 57,135 - a 2.0x improvement over R-MAPPO and 2.1x over QMIX. Critically, CT-GMARL restores 12x more compromised services than the strongest baseline by avoiding the "scorched earth" failure mode of trivially minimizing risk by destroying network utility. On zero-shot transfer to the live Docker environment, CT-GMARL policies achieve a median reward of 98,026, validating the Sim2Real bridge.