SynRAG: A Large Language Model Framework for Executable Query Generation in Heterogeneous SIEM System
作者: Md Hasan Saju, Austin Page, Akramul Azim, Jeff Gardiner, Farzaneh Abazari, Frank Eargle
分类: cs.CR, cs.AI
发布日期: 2025-12-31
期刊: https://conf.researchr.org/home/cascon-2025
💡 一句话要点
SynRAG:用于异构SIEM系统中可执行查询生成的大语言模型框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: SIEM系统 威胁检测 事件调查 大语言模型 查询生成 异构环境 安全运营 自动化
📋 核心要点
- 现有SIEM系统多样性导致安全分析师需要针对不同平台进行专门培训,增加了学习成本和人力需求。
- SynRAG框架通过平台无关的规范,自动生成适用于多种SIEM平台的威胁检测和事件调查查询,实现统一管理。
- 实验结果表明,SynRAG在跨SIEM威胁检测和事件调查中,生成的查询质量显著优于现有的大语言模型。
📝 摘要(中文)
安全信息和事件管理(SIEM)系统对于大型企业监控其IT基础设施至关重要,它们每天摄取和分析数百万的日志和事件。安全运营中心(SOC)分析师负责监控和分析这些海量数据,以识别潜在威胁并采取预防措施来保护企业资产。然而,Palo Alto Networks Qradar、Google SecOps、Splunk、Microsoft Sentinel和Elastic Stack等SIEM平台之间的多样性带来了重大挑战。由于这些系统在属性、架构和查询语言上存在差异,使得分析师难以有效地监控多个平台,除非经过广泛的培训或企业被迫扩大员工队伍。为了解决这个问题,我们引入了SynRAG,一个统一的框架,可以从平台无关的规范中自动生成针对多个SIEM平台的威胁检测或事件调查查询。SynRAG可以从分析师编写的单个高级规范生成特定于平台的查询。如果没有SynRAG,分析师将需要为每个SIEM平台手动编写单独的查询,因为查询语言在不同系统之间差异很大。该框架实现了跨异构SIEM环境的无缝威胁检测和事件调查,减少了对专门培训和手动查询转换的需求。我们使用Qradar和SecOps作为代表性的SIEM系统,针对最先进的语言模型(包括GPT、Llama、DeepSeek、Gemma和Claude)评估了SynRAG。我们的结果表明,与最先进的基础模型相比,SynRAG为跨SIEM威胁检测和事件调查生成了明显更好的查询。
🔬 方法详解
问题定义:论文旨在解决异构SIEM环境中,安全分析师需要针对不同平台编写不同查询语言的问题。现有方法需要分析师具备多种SIEM平台的专业知识,或者需要手动翻译查询,效率低下且容易出错。
核心思路:论文的核心思路是利用大语言模型(LLM)的自然语言理解和生成能力,将平台无关的威胁检测或事件调查规范转换为特定于SIEM平台的查询语言。通过这种方式,分析师只需编写一次规范,即可在多个平台上执行。
技术框架:SynRAG框架包含以下主要模块:1) 平台无关规范编写模块:允许分析师使用自然语言或结构化语言编写威胁检测或事件调查规范。2) LLM查询生成模块:使用预训练的大语言模型,根据输入的规范和目标SIEM平台的查询语言规则,生成可执行的查询。3) 查询验证与优化模块(可选):对生成的查询进行语法和语义验证,并进行优化以提高查询效率。
关键创新:SynRAG的关键创新在于它提供了一个统一的框架,能够自动地将平台无关的规范转换为特定于多个SIEM平台的查询。这避免了手动翻译查询的繁琐过程,并降低了对分析师专业知识的要求。与直接使用LLM生成查询相比,SynRAG通过平台无关的规范作为中间层,提高了生成查询的准确性和可控性。
关键设计:论文中可能涉及的关键设计包括:1) 规范语言的设计:需要足够表达能力以描述各种威胁检测和事件调查场景,同时易于理解和编写。2) LLM的选择与微调:选择合适的LLM,并使用特定于SIEM领域的语料库进行微调,以提高查询生成的效果。3) Prompt工程:设计有效的prompt,引导LLM生成符合要求的查询。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了SynRAG的有效性,使用Qradar和SecOps作为代表性SIEM系统,并与GPT、Llama、DeepSeek、Gemma和Claude等先进语言模型进行了比较。实验结果表明,SynRAG生成的查询在准确性和效率方面显著优于其他模型,为跨SIEM威胁检测和事件调查提供了更有效的解决方案。具体性能数据和提升幅度需要在论文中查找。
🎯 应用场景
SynRAG可应用于各种规模的企业安全运营中心(SOC),帮助安全分析师更高效地进行威胁检测和事件调查。它降低了对分析师专业知识的要求,减少了培训成本,并提高了跨异构SIEM环境的协同工作效率。未来,SynRAG可以扩展到支持更多的SIEM平台和安全工具,并与其他安全自动化平台集成,实现更智能化的安全运营。
📄 摘要(原文)
Security Information and Event Management (SIEM) systems are essential for large enterprises to monitor their IT infrastructure by ingesting and analyzing millions of logs and events daily. Security Operations Center (SOC) analysts are tasked with monitoring and analyzing this vast data to identify potential threats and take preventive actions to protect enterprise assets. However, the diversity among SIEM platforms, such as Palo Alto Networks Qradar, Google SecOps, Splunk, Microsoft Sentinel and the Elastic Stack, poses significant challenges. As these systems differ in attributes, architecture, and query languages, making it difficult for analysts to effectively monitor multiple platforms without undergoing extensive training or forcing enterprises to expand their workforce. To address this issue, we introduce SynRAG, a unified framework that automatically generates threat detection or incident investigation queries for multiple SIEM platforms from a platform-agnostic specification. SynRAG can generate platformspecific queries from a single high-level specification written by analysts. Without SynRAG, analysts would need to manually write separate queries for each SIEM platform, since query languages vary significantly across systems. This framework enables seamless threat detection and incident investigation across heterogeneous SIEM environments, reducing the need for specialized training and manual query translation. We evaluate SynRAG against state-of-the-art language models, including GPT, Llama, DeepSeek, Gemma, and Claude, using Qradar and SecOps as representative SIEM systems. Our results demonstrate that SynRAG generates significantly better queries for crossSIEM threat detection and incident investigation compared to the state-of-the-art base models.