Audit-LLM: Multi-Agent Collaboration for Log-based Insider Threat Detection

📄 arXiv: 2408.08902v1 📥 PDF

作者: Chengyu Song, Linru Ma, Jianming Zheng, Jinzhi Liao, Hongyu Kuang, Lin Yang

分类: cs.CR, cs.AI

发布日期: 2024-08-12

备注: 12 pages, 5 figures


💡 一句话要点

提出Audit-LLM,利用多智能体协作解决基于日志的内部威胁检测问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 内部威胁检测 大型语言模型 多智能体系统 日志分析 思维链 证据辩论 安全分析

📋 核心要点

  1. 现有基于日志的内部威胁检测方法难以处理活动类型多样和日志过长的问题,且LLM存在幻觉问题,影响检测准确性。
  2. 提出Audit-LLM框架,通过多智能体协作,将复杂任务分解为子任务,并构建可重用工具,克服上下文长度限制。
  3. 实验结果表明,Audit-LLM优于现有基线方法,提出的EMAD机制显著提高了LLM生成解释的忠实性。

📝 摘要(中文)

基于日志的内部威胁检测(ITD)通过审计日志条目来检测恶意用户活动。最近,具有强大常识知识的大型语言模型(LLM)已出现在ITD领域。然而,多样化的活动类型和过长的日志文件对LLM直接辨别大量正常活动中的恶意活动构成了重大挑战。此外,LLM的幻觉问题加剧了其在ITD中的应用难度,因为生成的结论可能与用户命令和活动上下文不一致。为了应对这些挑战,我们引入了Audit-LLM,这是一个多智能体日志内部威胁检测框架,包含三个协作智能体:(i)分解器智能体,使用思维链(COT)推理将复杂的ITD任务分解为可管理的子任务;(ii)工具构建器智能体,为子任务创建可重用工具,以克服LLM中的上下文长度限制;(iii)执行器智能体,通过调用构建的工具生成最终检测结论。为了提高结论的准确性,我们提出了一种基于证据的多智能体辩论(EMAD)机制,其中两个独立的执行器通过推理交换迭代地完善他们的结论,以达成共识。在三个公开可用的ITD数据集(CERT r4.2、CERT r5.2和PicoDomain)上进行的综合实验表明,我们的方法优于现有的基线,并且表明所提出的EMAD显着提高了LLM生成的解释的忠实性。

🔬 方法详解

问题定义:论文旨在解决基于日志的内部威胁检测中,大型语言模型(LLM)直接处理复杂、冗长的日志数据时面临的挑战。现有方法难以有效区分正常活动和恶意活动,并且LLM容易产生幻觉,导致检测结果不准确,缺乏可信度。

核心思路:论文的核心思路是将复杂的ITD任务分解为更小、更易于管理的子任务,并利用多智能体协作来解决这些子任务。通过构建可重用的工具,克服LLM的上下文长度限制,并采用辩论机制来提高结论的准确性和可信度。

技术框架:Audit-LLM框架包含三个主要智能体:Decomposer(分解器)智能体、Tool Builder(工具构建器)智能体和Executor(执行器)智能体。Decomposer智能体使用Chain-of-Thought (COT) 推理将ITD任务分解为子任务。Tool Builder智能体为每个子任务创建可重用的工具。Executor智能体调用这些工具来生成最终的检测结论。此外,还引入了Evidence-based Multi-agent Debate (EMAD) 机制,通过两个Executor智能体之间的辩论来提高结论的准确性。

关键创新:论文的关键创新在于多智能体协作框架和EMAD辩论机制。多智能体协作框架有效地分解了复杂任务,并利用工具来扩展LLM的能力。EMAD机制通过引入辩论过程,提高了结论的准确性和可信度,减少了LLM的幻觉问题。

关键设计:EMAD机制的关键设计在于两个Executor智能体之间的迭代推理交换。每个智能体基于证据生成初始结论,然后相互交换推理过程,并根据对方的反馈来改进自己的结论。这个过程重复进行,直到两个智能体达成共识。具体实现细节(如辩论轮数、证据选择策略等)在论文中可能有所描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Audit-LLM在CERT r4.2、CERT r5.2和PicoDomain三个公开数据集上均优于现有基线方法。提出的EMAD机制显著提高了LLM生成解释的忠实性,表明该方法能够有效减少LLM的幻觉问题,提高检测结果的可信度。具体性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于企业安全、网络安全等领域,帮助安全分析师更有效地检测和应对内部威胁。通过自动化日志分析过程,降低人工成本,提高检测效率和准确性。未来可扩展到其他安全事件检测场景,例如异常行为分析、恶意软件检测等。

📄 摘要(原文)

Log-based insider threat detection (ITD) detects malicious user activities by auditing log entries. Recently, large language models (LLMs) with strong common sense knowledge have emerged in the domain of ITD. Nevertheless, diverse activity types and overlong log files pose a significant challenge for LLMs in directly discerning malicious ones within myriads of normal activities. Furthermore, the faithfulness hallucination issue from LLMs aggravates its application difficulty in ITD, as the generated conclusion may not align with user commands and activity context. In response to these challenges, we introduce Audit-LLM, a multi-agent log-based insider threat detection framework comprising three collaborative agents: (i) the Decomposer agent, breaking down the complex ITD task into manageable sub-tasks using Chain-of-Thought (COT) reasoning;(ii) the Tool Builder agent, creating reusable tools for sub-tasks to overcome context length limitations in LLMs; and (iii) the Executor agent, generating the final detection conclusion by invoking constructed tools. To enhance conclusion accuracy, we propose a pair-wise Evidence-based Multi-agent Debate (EMAD) mechanism, where two independent Executors iteratively refine their conclusions through reasoning exchange to reach a consensus. Comprehensive experiments conducted on three publicly available ITD datasets-CERT r4.2, CERT r5.2, and PicoDomain-demonstrate the superiority of our method over existing baselines and show that the proposed EMAD significantly improves the faithfulness of explanations generated by LLMs.