Applying Action Masking and Curriculum Learning Techniques to Improve Data Efficiency and Overall Performance in Operational Technology Cyber Security using Reinforcement Learning
作者: Alec Wilson, William Holmes, Ryan Menzies, Kez Smithson Whitehead
分类: cs.CR, cs.LG
发布日期: 2024-09-13
备注: 14 pages, 9 figures, CAMLIS'24: Conference on Applied Machine Learning for Information Security, October 24--25, 2024, Arlington, VA
💡 一句话要点
应用动作掩码与课程学习提升强化学习在工控网络安全中的数据效率与性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 工控安全 网络安全 课程学习 动作掩码 数据效率 防御策略
📋 核心要点
- 现有强化学习方法在工控网络安全防御中面临数据效率低和难以应对复杂环境动态的挑战。
- 论文提出结合课程学习和动作掩码技术,引导智能体学习并约束动作空间,提升训练效率和性能。
- 实验表明,该方法在模拟环境中显著提升了防御智能体的性能,且数据效率远高于传统PPO。
📝 摘要(中文)
本文扩展了IPMSRL环境(集成平台管理系统强化学习环境)的应用,旨在训练防御性强化学习智能体,模拟海事 vessel 上 IPMS 在网络攻击下的子集,并增强了现实性,包括误报警报和警报延迟的动态特性。在最困难的环境测试中,应用课程学习使 episode reward mean 从基线结果 -2.791 提升至 -0.569。在最困难的环境测试中,应用动作掩码使 episode reward mean 从基线结果 -2.791 提升至 -0.743。重要的是,这种性能水平在不到 100 万个时间步内达到,比经过 250 万个时间步后性能较低的 vanilla PPO 更具数据效率。本文中观察到的最高性能的训练方法是课程学习和动作掩码的结合应用,平均 episode reward 为 0.137。本文还介绍了一个基本的硬编码防御智能体,编码了网络安全最佳实践的表示,为强化学习智能体达到的 episode reward mean 提供了背景。硬编码智能体的 episode reward mean 为 -1.895。因此,本文表明,课程学习和动作掩码的应用,无论是独立应用还是协同应用,都提供了一种克服工控网络安全威胁修复中存在的复杂现实世界动态的方法。
🔬 方法详解
问题定义:论文旨在解决在工控网络安全环境中,防御性强化学习智能体训练时数据效率低、难以应对复杂环境动态(如误报警报和警报延迟)的问题。现有方法,如vanilla PPO,需要大量的训练数据才能达到可接受的性能水平,且难以泛化到更复杂的场景中。
核心思路:论文的核心思路是通过引入课程学习和动作掩码技术来提升强化学习智能体在工控网络安全防御中的学习效率和性能。课程学习通过逐步增加训练难度,引导智能体从易到难地学习。动作掩码则通过限制智能体的动作空间,避免无效或有害的动作,从而加速学习过程。
技术框架:论文使用IPMSRL环境作为强化学习的训练平台。整体流程包括:1) 定义环境状态、动作和奖励函数;2) 使用课程学习策略,逐步增加环境的复杂性;3) 应用动作掩码,限制智能体的动作空间;4) 使用PPO算法训练智能体;5) 评估智能体的性能。
关键创新:论文的关键创新在于将课程学习和动作掩码技术结合应用于工控网络安全防御的强化学习训练中。与传统的强化学习方法相比,该方法能够显著提升数据效率和智能体的性能,使其能够更好地应对复杂的工控网络安全环境。
关键设计:课程学习的具体实现方式是逐步增加环境中误报警报和警报延迟的概率。动作掩码的设计是基于对工控网络安全领域的先验知识,例如,在没有检测到攻击时,某些防御动作是不必要的。PPO算法的具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在最困难的环境测试中,单独应用课程学习和动作掩码分别使episode reward mean从基线-2.791提升至-0.569和-0.743。两者结合应用时,episode reward mean达到0.137。重要的是,该方法在不到100万个时间步内达到此性能,远优于需要250万个时间步的vanilla PPO。此外,强化学习智能体的性能优于硬编码的防御智能体(episode reward mean为-1.895)。
🎯 应用场景
该研究成果可应用于提升工控系统网络安全防御能力,例如智能电网、石油化工、智能制造等关键基础设施。通过训练智能防御agent,可以自动响应和缓解网络攻击,降低人工干预的需求,提高系统的安全性和可靠性。未来可进一步研究更复杂的攻击场景和防御策略,并探索在真实工控系统中的部署和应用。
📄 摘要(原文)
In previous work, the IPMSRL environment (Integrated Platform Management System Reinforcement Learning environment) was developed with the aim of training defensive RL agents in a simulator representing a subset of an IPMS on a maritime vessel under a cyber-attack. This paper extends the use of IPMSRL to enhance realism including the additional dynamics of false positive alerts and alert delay. Applying curriculum learning, in the most difficult environment tested, resulted in an episode reward mean increasing from a baseline result of -2.791 to -0.569. Applying action masking, in the most difficult environment tested, resulted in an episode reward mean increasing from a baseline result of -2.791 to -0.743. Importantly, this level of performance was reached in less than 1 million timesteps, which was far more data efficient than vanilla PPO which reached a lower level of performance after 2.5 million timesteps. The training method which resulted in the highest level of performance observed in this paper was a combination of the application of curriculum learning and action masking, with a mean episode reward of 0.137. This paper also introduces a basic hardcoded defensive agent encoding a representation of cyber security best practice, which provides context to the episode reward mean figures reached by the RL agents. The hardcoded agent managed an episode reward mean of -1.895. This paper therefore shows that applications of curriculum learning and action masking, both independently and in tandem, present a way to overcome the complex real-world dynamics that are present in operational technology cyber security threat remediation.