Multimodal Analytics of Cybersecurity Crisis Preparation Exercises: What Predicts Success?

📄 arXiv: 2603.28553v1 📥 PDF

作者: Conrad Borchers, Valdemar Švábenský, Sandesh K. Kafle, Kevin K. Tang, Jan Vykopal

分类: cs.HC, cs.CY, cs.LG

发布日期: 2026-03-30

备注: Accepted as full paper to the 27th International Conference on Artificial Intelligence in Education (AIED 2026)


💡 一句话要点

提出基于多模态分析的网络安全危机演练评估方法,预测团队成功率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络安全演练 多模态分析 指令对齐 Bloom分类法 团队表现预测

📋 核心要点

  1. 现有方法难以大规模地衡量网络安全演练中指令对齐(预期认知与实际活动匹配)的有效性。
  2. 论文提出一种基于多模态数据(文本、日志等)分析的指令对齐度量方法,用于评估网络安全演练的有效性。
  3. 实验结果表明,多模态数据能有效预测团队表现,指令对齐度量提供了可解释的诊断信息,组合模型AUC达到0.80。

📝 摘要(中文)

本研究探讨了指令对齐(预期认知与实际活动之间的匹配)在网络安全模拟中的应用,旨在实现大规模有效教学。研究分析了来自23个团队(76名学生)在五个演练会话中的多模态数据。研究1使用Bloom分类法对目标和团队电子邮件进行编码,并使用广义线性混合模型对关键演练任务的完成情况进行建模。结果表明,指令对齐(定义为所需Bloom水平与实际Bloom水平之间的差异)可以预测成功,而单独的Bloom类别在考虑差异后则不能预测成功。研究2使用分组交叉验证和l1正则化逻辑回归比较了预测特征族。文本嵌入和日志特征优于仅使用Bloom的模型(AUC分别为0.74和0.71,而Bloom为0.55),并且它们的组合效果最佳(测试AUC约为0.80),而Bloom频率几乎没有增加。总而言之,这项工作为模拟提供了一种指令对齐的度量方法,并表明多模态数据能够最好地预测性能,而指令对齐则提供了可解释的诊断见解。

🔬 方法详解

问题定义:论文旨在解决网络安全危机演练中,如何有效评估团队表现并诊断教学有效性的问题。现有方法难以大规模地衡量指令对齐,缺乏对团队行为的细粒度理解,并且难以从多模态数据中提取有效特征来预测团队表现。

核心思路:论文的核心思路是利用多模态数据(团队邮件、操作日志等)来量化指令对齐程度,并将其作为预测团队表现的关键指标。通过分析实际执行的认知水平与预期认知水平的差异,可以更准确地评估演练的有效性,并为教学改进提供依据。

技术框架:整体框架包含数据收集、特征提取、模型训练和评估四个主要阶段。首先,收集团队在演练过程中的多模态数据,包括团队邮件、操作日志等。然后,使用Bloom分类法对目标和团队邮件进行编码,提取文本嵌入和日志特征。接着,使用广义线性混合模型和l1正则化逻辑回归来建模团队表现。最后,使用分组交叉验证来评估模型的性能。

关键创新:论文的关键创新在于提出了基于多模态数据和Bloom分类法的指令对齐度量方法。该方法能够量化实际执行的认知水平与预期认知水平的差异,从而更准确地评估演练的有效性。此外,论文还探索了不同特征组合对预测团队表现的影响,发现文本嵌入和日志特征的组合效果最佳。

关键设计:研究1中使用广义线性混合模型,将团队作为随机效应,以控制团队间的差异。研究2中使用l1正则化逻辑回归进行特征选择,并使用分组交叉验证来评估模型的泛化能力。文本嵌入使用预训练的词向量模型(具体模型未知),日志特征包括任务完成情况、操作频率等。Bloom分类法用于对目标和团队邮件进行编码,将其分为知识、理解、应用、分析、综合和评价六个认知水平。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,基于多模态数据的模型能够显著提高团队表现预测的准确性。文本嵌入和日志特征的组合模型在测试集上达到了0.80的AUC,优于仅使用Bloom分类法的模型(AUC为0.55)。指令对齐度量能够提供可解释的诊断信息,帮助识别演练中的薄弱环节。

🎯 应用场景

该研究成果可应用于网络安全教育、团队协作培训等领域,帮助评估演练效果,诊断教学问题,并为个性化教学提供数据支持。通过分析多模态数据,可以更全面地了解团队在演练中的表现,并为改进演练设计和教学方法提供依据。该方法还可扩展到其他领域的模拟训练和团队协作评估。

📄 摘要(原文)

Instructional alignment, the match between intended cognition and enacted activity, is central to effective instruction but hard to operationalize at scale. We examine alignment in cybersecurity simulations using multimodal traces from 23 teams (76 students) across five exercise sessions. Study 1 codes objectives and team emails with Bloom's taxonomy and models the completion of key exercise tasks with generalized linear mixed models. Alignment, defined as the discrepancy between required and enacted Bloom levels, predicts success, whereas the Bloom category alone does not predict success once discrepancy is considered. Study 2 compares predictive feature families using grouped cross-validation and l1-regularized logistic regression. Text embeddings and log features outperform Bloom-only models (AUC~0.74 and 0.71 vs. 0.55), and their combination performs best (Test AUC~0.80), with Bloom frequencies adding little. Overall, the work offers a measure of alignment for simulations and shows that multimodal traces best forecast performance, while alignment provides interpretable diagnostic insight.