Multi-Stage Retrieval for Operational Technology Cybersecurity Compliance Using Large Language Models: A Railway Casestudy

📄 arXiv: 2504.14044v1 📥 PDF

作者: Regan Bolton, Mohammadreza Sheikhfathollahi, Simon Parkinson, Dan Basher, Howard Parkinson

分类: cs.AI, cs.CR

发布日期: 2025-04-18


💡 一句话要点

提出基于LLM多阶段检索的OT网络安全合规性验证方法,以应对铁路等关键基础设施的网络安全挑战。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络安全合规性 大型语言模型 多阶段检索 运营技术 铁路安全

📋 核心要点

  1. 关键基础设施面临日益严峻的OT网络安全挑战,现有合规性验证流程效率低且易出错。
  2. 论文提出并行合规架构(PCA),利用LLM和多阶段检索,从监管标准中提取更多上下文信息。
  3. 实验表明,PCA显著提高了合规性验证的正确性和推理质量,并建立了评估LLM性能的指标。

📝 摘要(中文)

运营技术网络安全(OTCS)仍然是铁路等关键基础设施面临的主要挑战。随着这些系统因数字化而越来越容易受到恶意攻击,有效的文档和合规流程对于保护这些安全关键系统至关重要。本文提出了一种新颖的系统,该系统利用大型语言模型(LLM)和多阶段检索来增强针对IEC 62443和铁路专用IEC 63452等标准的合规性验证过程。我们首先评估用于回答OTCS合规性查询的基线合规架构(BCA),然后开发一种扩展方法,称为并行合规架构(PCA),该方法结合了来自监管标准的额外上下文。通过实证评估比较OpenAI-gpt-4o和Claude-3.5-haiku模型在这些架构中的表现,我们证明PCA显着提高了合规性验证的正确性和推理质量。我们的研究建立了响应正确性、逻辑推理和幻觉检测的指标,突出了在铁路网络安全合规性验证中使用LLM的优势和局限性。结果表明,检索增强方法可以显着提高合规性评估的效率和准确性,这在面临网络安全专业知识短缺的行业中尤其有价值。

🔬 方法详解

问题定义:本文旨在解决运营技术(OT)网络安全合规性验证问题,特别是在铁路等关键基础设施领域。现有方法依赖于人工审核和专家知识,效率低下且容易出错,难以应对日益复杂的网络安全威胁和法规要求。现有方法的痛点在于缺乏自动化和智能化,无法有效利用大量的法规文档和安全标准。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,结合多阶段检索技术,构建一个能够自动进行合规性验证的系统。通过检索相关的法规文档和安全标准,为LLM提供更全面的上下文信息,从而提高其推理和判断的准确性。这种方法旨在将专家知识融入到自动化流程中,提高效率并减少人为错误。

技术框架:该系统主要包含两个架构:基线合规架构(BCA)和并行合规架构(PCA)。BCA作为基准,直接使用LLM回答合规性查询。PCA则引入了多阶段检索机制,首先从法规文档中检索相关信息,然后将这些信息作为上下文提供给LLM,以提高其回答的准确性。整体流程包括:1) 接收合规性查询;2) 使用检索模块从法规文档中提取相关信息(PCA);3) 将查询和检索到的信息输入LLM;4) LLM生成合规性验证结果。

关键创新:该论文的关键创新在于提出了并行合规架构(PCA),该架构通过多阶段检索增强了LLM的合规性验证能力。与直接使用LLM的BCA相比,PCA能够更好地利用法规文档中的信息,从而提高验证的准确性和推理质量。此外,论文还提出了用于评估LLM在合规性验证任务中性能的指标,包括响应正确性、逻辑推理和幻觉检测。

关键设计:PCA的关键设计在于其多阶段检索模块,该模块负责从法规文档中提取与查询相关的信息。具体的检索算法和参数设置未知,但可以推测可能使用了基于向量相似度的检索方法。论文使用了OpenAI-gpt-4o和Claude-3.5-haiku两种LLM进行实验,并比较了它们在BCA和PCA中的表现。损失函数和网络结构等技术细节未在论文中明确说明,需要进一步研究。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,并行合规架构(PCA)在合规性验证任务中显著优于基线合规架构(BCA)。使用OpenAI-gpt-4o和Claude-3.5-haiku模型进行评估,PCA在响应正确性和逻辑推理方面均有明显提升。论文还提出了用于评估LLM性能的指标,为后续研究提供了参考。具体的性能提升幅度未知,但论文强调PCA能够有效减少LLM的幻觉现象。

🎯 应用场景

该研究成果可应用于铁路、能源、医疗等关键基础设施的网络安全合规性验证,帮助企业自动化评估其系统是否符合相关法规和标准。通过提高合规性验证的效率和准确性,降低安全风险,减少人工成本,并为网络安全专业人员提供决策支持。未来可扩展到其他领域的合规性管理,例如金融、法律等。

📄 摘要(原文)

Operational Technology Cybersecurity (OTCS) continues to be a dominant challenge for critical infrastructure such as railways. As these systems become increasingly vulnerable to malicious attacks due to digitalization, effective documentation and compliance processes are essential to protect these safety-critical systems. This paper proposes a novel system that leverages Large Language Models (LLMs) and multi-stage retrieval to enhance the compliance verification process against standards like IEC 62443 and the rail-specific IEC 63452. We first evaluate a Baseline Compliance Architecture (BCA) for answering OTCS compliance queries, then develop an extended approach called Parallel Compliance Architecture (PCA) that incorporates additional context from regulatory standards. Through empirical evaluation comparing OpenAI-gpt-4o and Claude-3.5-haiku models in these architectures, we demonstrate that the PCA significantly improves both correctness and reasoning quality in compliance verification. Our research establishes metrics for response correctness, logical reasoning, and hallucination detection, highlighting the strengths and limitations of using LLMs for compliance verification in railway cybersecurity. The results suggest that retrieval-augmented approaches can significantly improve the efficiency and accuracy of compliance assessments, particularly valuable in an industry facing a shortage of cybersecurity expertise.