Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations

作者: Md Hasan Saju, Akramul Azim

分类: cs.CR, cs.AI, cs.IR

发布日期: 2026-04-30

💡 一句话要点

提出端到端LLM框架，自动化SOC威胁检测、查询生成和事件响应。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 安全运营中心 威胁检测 大型语言模型 自动化 事件响应 查询生成 SIEM 检索增强

📋 核心要点

安全运营中心面临日益增长的威胁量、异构SIEM平台和耗时的人工分类工作流程等挑战。
提出一个端到端的威胁管理框架，通过集成检测、查询生成和响应支持模块来自动化安全工作流程。
实验结果表明，该框架显著提高了威胁检测准确率，缩短了事件分类时间，并提升了响应质量。

📝 摘要（中文）

本文提出了一种端到端的威胁管理框架，旨在自动化安全运营中心(SOC)的关键工作流程。该框架集成了基于集成的检测模块、语法约束的查询生成模块和检索增强的响应支持模块。检测模块评估了传统机器学习分类器和大型语言模型(LLM)，并通过集成三个最佳LLM，在SIEM日志上实现了82.8%的准确率和0.120的误报率。引入了SQM（Syntax Query Metadata）架构，用于自动证据收集，利用平台特定的语法约束、基于元数据的检索和文档引导的提示，为IBM QRadar和Google SecOps生成可执行的查询。SQM的BLEU得分达到0.384，ROUGE-L得分达到0.731，是基线LLM性能的两倍以上。在事件响应和推荐生成方面，集成SQM衍生的证据将响应代码预测准确率从78.3%提高到90.0%，总体推荐质量得分达到8.70。在实际SOC环境中，该框架将平均事件分类时间从数小时缩短到10分钟以内。该工作表明，具有检索增强的领域约束LLM架构可以满足大规模运营安全环境的严格可靠性和效率要求。

🔬 方法详解

问题定义：安全运营中心（SOC）面临着日益增长的威胁数量、异构的安全信息和事件管理（SIEM）平台以及耗时的人工事件分类流程。现有的方法难以有效应对这些挑战，导致响应时间过长和资源利用率低下。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大能力，结合领域知识和检索增强技术，构建一个端到端的自动化威胁管理框架。通过集成检测、查询生成和响应支持模块，实现威胁的自动检测、证据收集和事件响应。

技术框架：该框架包含三个主要模块：1) 基于集成的检测模块，用于评估传统机器学习模型和LLM，并集成表现最佳的LLM以提高检测准确率；2) SQM（Syntax Query Metadata）架构，用于自动生成平台特定的查询语句，以收集事件证据；3) 检索增强的响应支持模块，利用SQM生成的证据来提高事件响应的准确性和质量。

关键创新：该框架的关键创新在于SQM架构，它通过结合平台特定的语法约束、基于元数据的检索和文档引导的提示，实现了自动化的查询生成。这使得LLM能够生成可执行的查询语句，从而有效地收集事件证据。此外，集成多个LLM进行威胁检测也提高了检测的准确性和鲁棒性。

关键设计：SQM架构的关键设计包括：1) 平台特定的语法约束，确保生成的查询语句符合目标SIEM平台的语法要求；2) 基于元数据的检索，利用事件元数据来指导查询生成过程；3) 文档引导的提示，利用SIEM平台的文档来提供上下文信息，从而提高查询生成的准确性。检测模块通过集成三个最佳LLM的输出来提高检测性能，具体的集成方法未知。

🖼️ 关键图片

📊 实验亮点

该框架在SIEM日志上实现了82.8%的威胁检测准确率，误报率为0.120。SQM架构的BLEU得分达到0.384，ROUGE-L得分达到0.731，是基线LLM性能的两倍以上。集成SQM衍生的证据将响应代码预测准确率从78.3%提高到90.0%，总体推荐质量得分达到8.70。在实际SOC环境中，该框架将平均事件分类时间从数小时缩短到10分钟以内。

🎯 应用场景

该研究成果可应用于各种规模的安全运营中心，以自动化威胁检测、事件响应和安全分析等任务。通过减少人工干预和提高响应速度，可以显著降低安全风险，提高安全运营效率，并最终提升企业的整体安全态势。该框架还可扩展到其他安全领域，例如漏洞管理和合规性审计。

📄 摘要（原文）

Security Operations Centers (SOCs) face mounting operational challenges. These challenges come from increasing threat volumes, heterogeneous SIEM platforms, and time-consuming manual triage workflows. We present an end-to-end threat management framework that integrates ensemble-based detection, syntax-constrained query generation, and retrieval-augmented resolution support to automate critical security workflows. Our detection module evaluates both traditional machine learning classifiers and large language models (LLMs), then combines the three best-performing LLMs to create an ensemble model, achieving 82.8% accuracy while maintaining 0.120 false positive rate on SIEM logs. We introduce the SQM (Syntax Query Metadata) architecture for automated evidence collection. It uses platform-specific syntax constraints, metadata-based retrieval, and documentation-grounded prompting to generate executable queries for IBM QRadar and Google SecOps. SQM achieves a BLEU score of 0.384 and a ROUGE-L score of 0.731. These results are more than twice as good as the baseline LLM performance. For incident resolution and recommendation generation, we demonstrate that integrating SQM-derived evidence improves resolution code prediction accuracy from 78.3% to 90.0%, with an overall recommendation quality score of 8.70. In production SOC environments, our framework reduces average incident triage time from hours to under 10 minutes. This work demonstrates that domain-constrained LLM architectures with retrieval augmentation can meet the strict reliability and efficiency requirements of operational security environments at scale.

Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理