Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations

📄 arXiv: 2604.27321v1 📥 PDF

作者: Md Hasan Saju, Akramul Azim

分类: cs.CR, cs.AI, cs.IR

发布日期: 2026-04-30


💡 一句话要点

提出端到端LLM框架,自动化SOC威胁检测、查询生成和事件响应。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 安全运营中心 威胁检测 大型语言模型 自动化 事件响应 查询生成 SIEM 检索增强

📋 核心要点

  1. 安全运营中心面临日益增长的威胁量、异构SIEM平台和耗时的人工分类工作流程等挑战。
  2. 提出一个端到端的威胁管理框架,通过集成检测、查询生成和响应支持模块来自动化安全工作流程。
  3. 实验结果表明,该框架显著提高了威胁检测准确率,缩短了事件分类时间,并提升了响应质量。

📝 摘要(中文)

本文提出了一种端到端的威胁管理框架,旨在自动化安全运营中心(SOC)的关键工作流程。该框架集成了基于集成的检测模块、语法约束的查询生成模块和检索增强的响应支持模块。检测模块评估了传统机器学习分类器和大型语言模型(LLM),并通过集成三个最佳LLM,在SIEM日志上实现了82.8%的准确率和0.120的误报率。引入了SQM(Syntax Query Metadata)架构,用于自动证据收集,利用平台特定的语法约束、基于元数据的检索和文档引导的提示,为IBM QRadar和Google SecOps生成可执行的查询。SQM的BLEU得分达到0.384,ROUGE-L得分达到0.731,是基线LLM性能的两倍以上。在事件响应和推荐生成方面,集成SQM衍生的证据将响应代码预测准确率从78.3%提高到90.0%,总体推荐质量得分达到8.70。在实际SOC环境中,该框架将平均事件分类时间从数小时缩短到10分钟以内。该工作表明,具有检索增强的领域约束LLM架构可以满足大规模运营安全环境的严格可靠性和效率要求。

🔬 方法详解

问题定义:安全运营中心(SOC)面临着日益增长的威胁数量、异构的安全信息和事件管理(SIEM)平台以及耗时的人工事件分类流程。现有的方法难以有效应对这些挑战,导致响应时间过长和资源利用率低下。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大能力,结合领域知识和检索增强技术,构建一个端到端的自动化威胁管理框架。通过集成检测、查询生成和响应支持模块,实现威胁的自动检测、证据收集和事件响应。

技术框架:该框架包含三个主要模块:1) 基于集成的检测模块,用于评估传统机器学习模型和LLM,并集成表现最佳的LLM以提高检测准确率;2) SQM(Syntax Query Metadata)架构,用于自动生成平台特定的查询语句,以收集事件证据;3) 检索增强的响应支持模块,利用SQM生成的证据来提高事件响应的准确性和质量。

关键创新:该框架的关键创新在于SQM架构,它通过结合平台特定的语法约束、基于元数据的检索和文档引导的提示,实现了自动化的查询生成。这使得LLM能够生成可执行的查询语句,从而有效地收集事件证据。此外,集成多个LLM进行威胁检测也提高了检测的准确性和鲁棒性。

关键设计:SQM架构的关键设计包括:1) 平台特定的语法约束,确保生成的查询语句符合目标SIEM平台的语法要求;2) 基于元数据的检索,利用事件元数据来指导查询生成过程;3) 文档引导的提示,利用SIEM平台的文档来提供上下文信息,从而提高查询生成的准确性。检测模块通过集成三个最佳LLM的输出来提高检测性能,具体的集成方法未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在SIEM日志上实现了82.8%的威胁检测准确率,误报率为0.120。SQM架构的BLEU得分达到0.384,ROUGE-L得分达到0.731,是基线LLM性能的两倍以上。集成SQM衍生的证据将响应代码预测准确率从78.3%提高到90.0%,总体推荐质量得分达到8.70。在实际SOC环境中,该框架将平均事件分类时间从数小时缩短到10分钟以内。

🎯 应用场景

该研究成果可应用于各种规模的安全运营中心,以自动化威胁检测、事件响应和安全分析等任务。通过减少人工干预和提高响应速度,可以显著降低安全风险,提高安全运营效率,并最终提升企业的整体安全态势。该框架还可扩展到其他安全领域,例如漏洞管理和合规性审计。

📄 摘要(原文)

Security Operations Centers (SOCs) face mounting operational challenges. These challenges come from increasing threat volumes, heterogeneous SIEM platforms, and time-consuming manual triage workflows. We present an end-to-end threat management framework that integrates ensemble-based detection, syntax-constrained query generation, and retrieval-augmented resolution support to automate critical security workflows. Our detection module evaluates both traditional machine learning classifiers and large language models (LLMs), then combines the three best-performing LLMs to create an ensemble model, achieving 82.8% accuracy while maintaining 0.120 false positive rate on SIEM logs. We introduce the SQM (Syntax Query Metadata) architecture for automated evidence collection. It uses platform-specific syntax constraints, metadata-based retrieval, and documentation-grounded prompting to generate executable queries for IBM QRadar and Google SecOps. SQM achieves a BLEU score of 0.384 and a ROUGE-L score of 0.731. These results are more than twice as good as the baseline LLM performance. For incident resolution and recommendation generation, we demonstrate that integrating SQM-derived evidence improves resolution code prediction accuracy from 78.3% to 90.0%, with an overall recommendation quality score of 8.70. In production SOC environments, our framework reduces average incident triage time from hours to under 10 minutes. This work demonstrates that domain-constrained LLM architectures with retrieval augmentation can meet the strict reliability and efficiency requirements of operational security environments at scale.