Large Language Models for Explainable Threat Intelligence

📄 arXiv: 2511.05406v1 📥 PDF

作者: Tiago Dinis, Miguel Correia, Roger Tavares

分类: cs.CL

发布日期: 2025-11-07


💡 一句话要点

RAGRecon:利用大语言模型和知识图谱实现可解释的威胁情报分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 威胁情报 检索增强生成 知识图谱 可解释性

📋 核心要点

  1. 传统网络安全机制难以跟上日益复杂的网络威胁,亟需更先进的威胁情报分析方法。
  2. RAGRecon系统利用检索增强生成(RAG)的大语言模型,结合实时信息检索和领域数据,实现威胁情报的获取。
  3. 实验结果表明,RAGRecon在威胁情报问答任务中表现出色,最佳组合的响应匹配度超过91%。

📝 摘要(中文)

随着网络威胁日益复杂,传统的安全机制难以应对。大语言模型(LLM)凭借其在文本处理和生成方面的强大能力,在网络安全领域展现出巨大潜力。本文探索了利用检索增强生成(RAG)的LLM,通过结合实时信息检索和领域特定数据来获取威胁情报。所提出的系统RAGRecon使用带有RAG的LLM来回答有关网络安全威胁的问题。此外,它通过为每个回复生成并以可视化方式呈现给用户的知识图谱,使这种人工智能(AI)形式具有可解释性。这提高了模型推理的透明度和可解释性,使分析师能够更好地理解系统基于RAG系统恢复的上下文所建立的连接。我们使用两个数据集和七个不同的LLM对RAGRecon进行了实验评估,对于最佳组合,响应与参考响应的匹配度超过91%。

🔬 方法详解

问题定义:论文旨在解决网络安全领域中威胁情报分析的可解释性问题。现有方法,如传统的安全信息和事件管理(SIEM)系统,通常难以提供清晰的推理过程,使得安全分析师难以理解系统给出的结论,从而影响决策效率和信任度。

核心思路:论文的核心思路是利用检索增强生成(RAG)的大语言模型,结合实时信息检索和领域知识图谱,为威胁情报分析提供可解释的推理过程。通过RAG,模型可以检索相关信息并生成答案,同时生成知识图谱来可视化推理路径,从而提高透明度和可信度。

技术框架:RAGRecon系统的整体架构包含以下几个主要模块:1) 问题输入:接收用户关于网络安全威胁的问题。2) 信息检索:利用RAG从实时信息源和领域特定数据库中检索相关信息。3) LLM推理:使用大语言模型基于检索到的信息生成答案。4) 知识图谱生成:根据LLM的推理过程,构建知识图谱,展示实体之间的关系。5) 结果展示:将答案和知识图谱可视化地呈现给用户。

关键创新:该论文的关键创新在于将RAG与知识图谱生成相结合,为LLM在威胁情报分析中的应用提供了可解释性。传统的LLM应用通常是黑盒,难以理解其推理过程,而RAGRecon通过知识图谱可视化了推理路径,使得分析师可以验证模型的结论。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是,RAG部分的关键在于选择合适的向量数据库和检索策略,以确保检索到相关的信息。知识图谱的生成需要定义实体和关系类型,并设计合适的算法来从LLM的推理过程中提取这些信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAGRecon系统在威胁情报问答任务中表现出色。通过使用两个数据集和七个不同的LLM进行评估,最佳组合的响应与参考响应的匹配度超过91%。这表明RAGRecon能够有效地利用LLM和RAG技术来提供准确和相关的威胁情报。

🎯 应用场景

RAGRecon系统可应用于各种网络安全场景,例如威胁狩猎、事件响应和漏洞分析。它可以帮助安全分析师快速理解威胁情报,识别潜在风险,并做出明智的决策。该研究的未来影响在于提高网络安全防御的效率和可信度,并促进人工智能在安全领域的更广泛应用。

📄 摘要(原文)

As cyber threats continue to grow in complexity, traditional security mechanisms struggle to keep up. Large language models (LLMs) offer significant potential in cybersecurity due to their advanced capabilities in text processing and generation. This paper explores the use of LLMs with retrieval-augmented generation (RAG) to obtain threat intelligence by combining real-time information retrieval with domain-specific data. The proposed system, RAGRecon, uses a LLM with RAG to answer questions about cybersecurity threats. Moreover, it makes this form of Artificial Intelligence (AI) explainable by generating and visually presenting to the user a knowledge graph for every reply. This increases the transparency and interpretability of the reasoning of the model, allowing analysts to better understand the connections made by the system based on the context recovered by the RAG system. We evaluated RAGRecon experimentally with two datasets and seven different LLMs and the responses matched the reference responses more than 91% of the time for the best combinations.