Learning from Change: Predictive Models for Incident Prevention in a Regulated IT Environment
作者: Eileen Kapel, Jan Lennartz, Luis Cruz, Diomidis Spinellis, Arie van Deursen
分类: cs.SE, cs.AI, cs.CE, cs.LG
发布日期: 2026-04-15
备注: 12 pages, 6 figures, 2026 IEEE/ACM 48th International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP)
💡 一句话要点
提出一种基于LightGBM的可解释IT变更风险预测模型,用于金融等监管环境下的事件预防。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: IT变更管理 风险预测 机器学习 LightGBM SHAP值 可解释性 金融监管
📋 核心要点
- IT变更管理对依赖软件和服务的企业至关重要,尤其是在金融等监管严格的行业,但变更常引发IT事件。
- 该研究提出一种可解释的机器学习模型,预测变更部署引发事件的风险,并利用SHAP值提供特征级别的解释。
- 实验表明,LightGBM模型在预测性能上优于现有的基于规则的方法,并满足合规性需求。
📝 摘要(中文)
本研究提出了一种在大型国际银行中预测事件风险评分的方法,旨在支持工程师在变更部署的评估和计划阶段预测潜在的事件诱发风险。为了满足监管约束,该模型在构建时考虑了可审计性和可解释性,应用SHAP值来提供特征级别的洞察,并确保决策可追溯和透明。使用一年的真实数据集,我们将现有的基于规则的方法与三种机器学习模型(HGBC、LightGBM和XGBoost)进行了比较。LightGBM表现最佳,尤其是在使用聚合的团队指标来捕获组织环境时。结果表明,数据驱动、可解释的模型可以优于基于规则的方法,同时满足合规性需求,从而实现主动的风险缓解和更可靠的IT运营。
🔬 方法详解
问题定义:论文旨在解决在高度监管的IT环境中,如何有效预测和预防由变更引起的IT事件。现有方法,如基于规则的系统,通常难以捕捉复杂的关系,且缺乏透明度和可解释性,难以满足审计要求。
核心思路:论文的核心思路是利用机器学习模型,特别是LightGBM,从历史变更数据中学习,预测变更部署可能引发的事件风险。同时,为了满足监管要求,强调模型的可解释性,采用SHAP值来解释模型预测结果,提供特征级别的洞察。
技术框架:整体框架包括数据收集与预处理、特征工程、模型训练与评估、以及风险解释与可视化四个主要阶段。首先,收集历史变更数据,包括变更类型、影响范围、执行团队等信息。然后,进行特征工程,提取与事件风险相关的特征,包括变更本身的属性以及团队的聚合指标。接着,使用LightGBM等模型进行训练,并使用真实数据进行评估。最后,利用SHAP值解释模型预测结果,并可视化风险信息。
关键创新:最重要的技术创新点在于将可解释的机器学习模型应用于IT变更风险预测,并结合SHAP值提供特征级别的解释。这使得模型不仅能够预测风险,还能解释风险产生的原因,从而增强了模型的透明度和可信度。与现有方法相比,该方法能够更准确地预测风险,并满足监管要求。
关键设计:论文的关键设计包括:1) 使用LightGBM模型,因为它在性能和效率之间取得了良好的平衡;2) 引入团队聚合指标,以捕捉组织环境对风险的影响;3) 使用SHAP值进行模型解释,提供特征级别的洞察;4) 针对金融行业的监管要求,设计了可审计和可追溯的风险评估流程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LightGBM模型在预测IT变更风险方面表现最佳,显著优于现有的基于规则的方法。特别是在引入团队聚合指标后,LightGBM模型的性能得到了进一步提升。具体而言,LightGBM在准确率、召回率和F1-score等指标上均取得了显著的提升,表明该模型能够更准确地预测高风险变更,并减少误报。
🎯 应用场景
该研究成果可应用于金融、医疗等高度监管的IT环境中,帮助企业主动识别和缓解变更风险,提高IT运营的可靠性和稳定性,降低因IT事件造成的损失。此外,该方法的可解释性使其能够满足监管要求,增强企业对风险管理的信心,并为未来的风险管理策略提供数据支持。
📄 摘要(原文)
Effective IT change management is important for businesses that depend on software and services, particularly in highly regulated sectors such as finance, where operational reliability, auditability, and explainability are essential. A significant portion of IT incidents are caused by changes, making it important to identify high-risk changes before deployment. This study presents a predictive incident risk scoring approach at a large international bank. The approach supports engineers during the assessment and planning phases of change deployments by predicting the potential of inducing incidents. To satisfy regulatory constraints, we built the model with auditability and explainability in mind, applying SHAP values to provide feature-level insights and ensure decisions are traceable and transparent. Using a one-year real-world dataset, we compare the existing rule-based process with three machine learning models: HGBC, LightGBM, and XGBoost. LightGBM achieved the best performance, particularly when enriched with aggregated team metrics that capture organisational context. Our results show that data-driven, interpretable models can outperform rule-based approaches while meeting compliance needs, enabling proactive risk mitigation and more reliable IT operations.