GenTI: Benchmarking LLMs for Autonomous IDPS Rule Generation for Unseen Attacks
作者: Hassan Jalil Hadi, Rehana Yasmin, Ali Shoker
分类: cs.CR, cs.AI
发布日期: 2026-06-04
💡 一句话要点
提出GenTI以解决自动化IDPS规则生成的挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 入侵检测 自动化规则生成 网络安全 大型语言模型 网络威胁情报 数据集构建 机器学习
📋 核心要点
- 现有的IDPS规则手动编写,难以适应新兴和零日攻击,且公共数据集缺乏支持自动规则生成的信息。
- 提出GenTI框架,通过LLM驱动的管道实现自动生成IDPS规则,结合结构化提示工程和验证机制。
- 实验结果显示,GenTI的复合规则质量评分达到89.4%,CTI覆盖率为94.8%,未知攻击检测率从45%提升至87.4%。
📝 摘要(中文)
基于规则的入侵检测与防御系统(IDPS)提供了精确的攻击检测和缓解能力,但其手动编写的签名驱动规则限制了对新兴和零日攻击的适应性。此外,现有的公共数据集(如CICIDS2017、UNSW-NB15)主要集中于流量分类,缺乏支持自动规则合成或防御逻辑的结构化信息。为了解决这一问题,本文提出了生成线程智能(GenTI),一个基于大型语言模型(LLM)的基准,用于自动生成针对未知攻击的IDPS规则。该数据集(GTI)汇集了来自Snort、Suricata、Emerging Threats的超过15万条检测和防御规则,以及5万条YARA规则,均附有协议行为、有效载荷签名、上下文关系、网络威胁情报(CTI)映射和可操作的响应类型。通过结构化提示工程、思维链(CoT)推理和验证链(CoVe)循环,设计了一个LLM驱动的管道,将分析师提示和代表性有效载荷转化为可部署的规则。生成的规则在Snort/Suricata上实时执行,并通过语法准确性、语义相似性、CTI覆盖率、安全有效性以及未知攻击检测进行评估。
🔬 方法详解
问题定义:本文旨在解决现有IDPS规则生成的不足,尤其是手动编写规则的局限性和现有数据集缺乏结构化信息的问题。
核心思路:通过构建一个基于大型语言模型的框架,GenTI能够自动生成针对未知攻击的IDPS规则,提升系统的适应性和响应能力。
技术框架:GenTI的整体架构包括数据集GTI的构建、LLM驱动的规则生成管道、结构化提示工程、思维链推理和验证链循环等主要模块。
关键创新:GenTI首次将规则级的网络威胁情报与LLM自动化紧密结合,显著提升了规则生成的质量和效率。
关键设计:在设计中,采用了结构化提示工程以优化输入,使用思维链推理增强生成过程的逻辑性,并通过验证链循环确保生成规则的语法、语义和安全性。
🖼️ 关键图片
📊 实验亮点
GenTI的实验结果显示,生成的规则在语法准确性、语义相似性和CTI覆盖率等方面表现优异,复合规则质量评分达到89.4%。此外,未知攻击检测率从45%提升至87.4%,假阳性率从8.5%降至2.3%,显著提高了系统的检测能力和安全性。
🎯 应用场景
GenTI的研究成果可广泛应用于网络安全领域,尤其是在自动化入侵检测与防御系统中。通过提高规则生成的效率和准确性,能够有效应对新兴网络威胁,提升整体安全防护能力。未来,GenTI的框架还可扩展到其他类型的安全防护系统,推动智能安全技术的发展。
📄 摘要(原文)
Rule-based Intrusion Detection and Prevention Systems (IDPS) offer precise attack detection as well as mitigation, however their manually crafted, signature-driven rules limit adaptability to emerging and zero-day threats. Additionally, existing public datasets (e.g., CICIDS2017, UNSW-NB15) focus on traffic classification and provide little structured information to support automatic rule synthesis or prevention logic. To address this gap, we propose Generative Thread Intelligence (GenTI) \footnote{GenTI refers to the proposed framework, and GTI refers to the dataset.} an LLM-driven benchmark for automatic generation of IDPS rules targeting unseen attacks. The dataset (GTI) aggregates over 150k detection and prevention rules from Snort, Suricata, Emerging Threats, as well as 50k YARA, each annotated with protocol behavior, payload signatures, contextual relationships, mappings to Cyber Threat Intelligence (CTI), along with actionable response types (alert, drop, reject). Moreover, on top of this corpus we design an LLM-based pipeline that transforms analyst prompts and representative payloads into deployable rules via structured prompt engineering, Chain-of-Thought (CoT) reasoning, as well as a Chain-of-Verification (CoVe) loop for syntactic, semantic, and security validation. The generated rules are executed in real time on (Snort/Suricata) and evaluated by syntax accuracy, semantic similarity, CTI coverage, security effectiveness as well as unseen attacks detection. Furthermore, our GenTI instantiation achieves a composite rule-quality score of 89.4\%, with 94.8\% CTI coverage, improving unseen attacks detection from 45\% to 87.4\% and reducing the false-positive rate from 8.5\% to 2.3\%. Overall, GenTI establishes the first large-scale benchmark that tightly couples rule-level CTI with LLM-based automation, enabling adaptive, self-evolving IDPS.