Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
作者: Alankrit Chona, Igor Kozlov, Ambuj Kumar
分类: cs.CR, cs.AI
发布日期: 2026-04-21
备注: 13 pages, 3 figures, 5 tables. Complete benchmark and hunt traces available on request
💡 一句话要点
提出网络安全防御基准,评估LLM在SecOps中威胁狩猎任务的表现
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网络安全 威胁狩猎 大型语言模型 安全运营中心 强化学习
📋 核心要点
- 现有安全基准测试侧重于问答,未能充分评估LLM在开放式、证据驱动的威胁狩猎中的能力。
- 该论文构建了一个强化学习环境,模拟真实攻击场景,要求LLM智能体通过SQL查询识别恶意事件。
- 实验结果表明,现有LLM在威胁狩猎任务中表现不佳,距离实际应用还存在较大差距。
📝 摘要(中文)
本文提出了网络安全防御基准(Cyber Defense Benchmark),用于评估大型语言模型(LLM)智能体在安全运营中心(SOC)分析师核心任务——威胁狩猎中的表现。该基准提供原始Windows事件日志数据库,不提供引导性问题或提示,要求智能体识别恶意事件的确切时间戳。该基准包含来自OTRF Security-Datasets语料库的106个真实攻击过程,涵盖MITRE ATT&CK框架中12个策略的86个子技术,并将其封装到Gymnasium强化学习环境中。每个episode向智能体呈现一个包含75,000-135,000条日志记录的内存SQLite数据库,这些日志记录由确定性的攻击模拟器生成,该模拟器对原始记录进行时间偏移和实体混淆。智能体必须迭代地提交SQL查询以发现恶意事件时间戳并显式标记它们,并根据Sigma规则导出的ground truth进行CTF风格的评分。对五个前沿模型(Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5和Gemini 3 Flash)在涵盖105/106个过程的26个campaign上进行评估,发现所有模型都表现不佳:最佳模型(Claude Opus 4.6)平均仅提交了3.8%的恶意事件的正确标记,并且没有任何模型能够找到所有标记。作者将通过分数定义为每个ATT&CK策略上>=50%的召回率,这是无监督SOC部署的最低标准。没有模型通过:领先者在13个策略中的5个上清除了此标准,其余四个模型在零个上通过。这些结果表明,尽管当前LLM在精选的问答安全基准测试中表现出色,但它们不太适合开放式的、证据驱动的威胁狩猎。
🔬 方法详解
问题定义:论文旨在解决LLM在安全运营中心(SOC)中进行威胁狩猎任务时表现不佳的问题。现有方法主要集中在问答式的安全基准测试,缺乏对LLM在开放式、证据驱动的场景下,从海量日志数据中识别恶意事件的能力进行有效评估。现有方法无法真实反映SOC分析师面临的挑战,即在没有明确提示的情况下,从大量原始日志中发现潜在威胁。
核心思路:论文的核心思路是构建一个模拟真实攻击场景的强化学习环境,让LLM智能体扮演SOC分析师的角色,通过迭代地提交SQL查询来探索日志数据,并识别恶意事件的时间戳。这种方法能够更真实地模拟威胁狩猎过程,并评估LLM在复杂、开放式环境下的表现。
技术框架:该基准测试框架主要包含以下几个模块:1) 攻击模拟器:基于OTRF Security-Datasets语料库,模拟真实的攻击过程,生成包含恶意事件的日志数据。2) Gymnasium强化学习环境:将攻击场景封装为强化学习环境,智能体通过与环境交互来学习威胁狩猎策略。3) SQL查询引擎:允许智能体通过SQL查询来探索日志数据。4) 奖励函数:根据智能体识别恶意事件的准确性和召回率来计算奖励。5) 评估指标:采用CTF风格的评分方式,评估智能体发现恶意事件的准确性和完整性。
关键创新:该论文的关键创新在于构建了一个更贴近真实场景的网络安全防御基准,该基准能够更全面地评估LLM在威胁狩猎任务中的能力。与现有的问答式安全基准测试相比,该基准更加注重LLM在开放式、证据驱动的环境下,从海量数据中发现潜在威胁的能力。
关键设计:该基准测试的关键设计包括:1) 使用OTRF Security-Datasets语料库中的真实攻击过程,保证了攻击场景的真实性。2) 采用Gymnasium强化学习环境,允许智能体通过与环境交互来学习威胁狩猎策略。3) 使用Sigma规则导出的ground truth进行CTF风格的评分,保证了评估的准确性和客观性。4) 针对不同的ATT&CK策略,设置了不同的奖励函数,鼓励智能体全面地探索日志数据。
📊 实验亮点
实验结果表明,当前最先进的LLM(如Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5和Gemini 3 Flash)在威胁狩猎任务中表现不佳,最佳模型仅能识别3.8%的恶意事件。没有模型能够达到无监督SOC部署的最低标准(每个ATT&CK策略上>=50%的召回率),表明LLM在开放式、证据驱动的威胁狩猎方面仍有很大的提升空间。
🎯 应用场景
该研究成果可应用于评估和改进LLM在安全运营中心(SOC)中的应用,例如自动化威胁狩猎、事件响应和安全分析。通过该基准测试,可以更好地了解LLM在实际安全场景中的优势和局限性,从而指导LLM的开发和部署,提高网络安全防御能力。
📄 摘要(原文)
We introduce the Cyber Defense Benchmark, a benchmark for measuring how well large language model (LLM) agents perform the core SOC analyst task of threat hunting: given a database of raw Windows event logs with no guided questions or hints, identify the exact timestamps of malicious events. The benchmark wraps 106 real attack procedures from the OTRF Security-Datasets corpus - spanning 86 MITRE ATT&CK sub-techniques across 12 tactics - into a Gymnasium reinforcement-learning environment. Each episode presents the agent with an in-memory SQLite database of 75,000-135,000 log records produced by a deterministic campaign simulator that time-shifts and entity-obfuscates the raw recordings. The agent must iteratively submit SQL queries to discover malicious event timestamps and explicitly flag them, scored CTF-style against Sigma-rule-derived ground truth. Evaluating five frontier models - Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, Kimi K2.5, and Gemini 3 Flash - on 26 campaigns covering 105 of 106 procedures, we find that all models fail dramatically: the best model (Claude Opus 4.6) submits correct flags for only 3.8% of malicious events on average, and no run across any model ever finds all flags. We define a passing score as >= 50% recall on every ATT&CK tactic - the minimum bar for unsupervised SOC deployment. No model passes: the leader clears this bar on 5 of 13 tactics and the remaining four on zero. These results suggest that current LLMs are poorly suited for open-ended, evidence-driven threat hunting despite strong performance on curated Q&A security benchmarks.