LLM-Enhanced Log Anomaly Detection: A Comprehensive Benchmark of Large Language Models for Automated System Diagnostics
作者: Disha Patel
分类: cs.LG, cs.SE
发布日期: 2026-04-14
备注: 5 pages, 4 tables, code available at https://github.com/disha8611/llm-log-anomaly-benchmark
💡 一句话要点
提出LLM驱动的日志异常检测基准,用于自动化系统诊断。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 日志异常检测 大型语言模型 零样本学习 提示工程 系统诊断
📋 核心要点
- 现有日志异常检测方法难以处理现代日志数据的异构性和演变性,缺乏有效性。
- 利用大型语言模型(LLM)理解日志,通过提示工程实现零样本或少样本异常检测。
- 实验表明,微调Transformer模型F1最高,但LLM在零样本下表现出显著优势。
📝 摘要(中文)
系统日志异常检测对于维护大规模软件系统的可靠性至关重要,但传统方法难以应对现代日志数据的异构性和演变性。大型语言模型(LLM)的最新进展为日志理解提供了有希望的新方法,但缺乏对基于LLM的方法与已建立技术的系统比较。本文提出了一项全面的基准研究,评估了基于LLM和传统方法在四个广泛使用的公共数据集(HDFS、BGL、Thunderbird和Spirit)上的日志异常检测性能。我们评估了三种方法:(1)经典日志解析器(Drain、Spell、AEL)与机器学习分类器的组合,(2)微调的Transformer模型(BERT、RoBERTa),以及(3)基于提示的LLM方法(GPT-3.5、GPT-4、LLaMA-3)在零样本和少样本设置下。实验表明,虽然微调的Transformer模型实现了最高的F1分数(0.96-0.99),但基于提示的LLM在不需要任何标记训练数据的情况下,表现出了卓越的零样本能力(F1:0.82-0.91),这对于标记异常稀缺的实际部署来说是一个显著的优势。我们进一步分析了每种方法的成本-准确性权衡、延迟特性和失效模式。我们的研究结果为从业者根据其在准确性、延迟、成本和标签可用性方面的具体约束选择日志异常检测方法提供了可操作的指导。所有代码和实验配置均已公开,以方便重现。
🔬 方法详解
问题定义:论文旨在解决大规模软件系统中,传统日志异常检测方法难以有效处理异构、演变日志数据的问题。现有方法依赖大量标注数据进行训练,且泛化能力有限,难以适应新的异常模式。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解和泛化能力,通过提示工程(Prompt Engineering)的方式,使LLM能够在零样本或少样本的情况下进行日志异常检测。这种方法旨在减少对大量标注数据的依赖,并提高模型的适应性和泛化能力。
技术框架:整体框架包括三个主要类别的方法:1) 经典日志解析器(Drain, Spell, AEL)结合机器学习分类器;2) 微调的Transformer模型(BERT, RoBERTa);3) 基于提示的LLM方法(GPT-3.5, GPT-4, LLaMA-3)。对于LLM方法,通过设计合适的提示,引导LLM判断日志是否异常。
关键创新:最重要的技术创新点在于利用LLM的零样本学习能力进行日志异常检测。与传统的监督学习方法不同,该方法不需要针对特定数据集进行训练,而是通过提示工程,直接利用LLM的预训练知识进行异常检测。这大大降低了对标注数据的需求,并提高了模型的泛化能力。
关键设计:关键设计包括:1) 提示的设计,需要能够清晰地表达异常检测的任务,并引导LLM进行推理;2) 针对不同LLM选择合适的提示策略,例如,对于GPT-3.5和GPT-4,可以使用更复杂的提示,而对于LLaMA-3,可能需要更简单的提示;3) 实验中对比了零样本和少样本设置,以评估LLM在不同数据量下的性能。
📊 实验亮点
实验结果表明,微调的Transformer模型(BERT, RoBERTa)在四个数据集上取得了最高的F1分数(0.96-0.99)。然而,基于提示的LLM(GPT-3.5, GPT-4, LLaMA-3)在零样本设置下也表现出了显著的性能(F1:0.82-0.91),尤其是在缺乏标注数据的情况下,展现出巨大的优势。这表明LLM在日志异常检测领域具有巨大的潜力。
🎯 应用场景
该研究成果可应用于大规模软件系统的自动化运维,例如实时监控系统日志,自动检测异常事件,并及时发出警报。这有助于提高系统的可靠性和稳定性,减少人工干预,降低运维成本。未来,可以进一步探索LLM在根因分析、故障预测等方面的应用。
📄 摘要(原文)
System log anomaly detection is critical for maintaining the reliability of large-scale software systems, yet traditional methods struggle with the heterogeneous and evolving nature of modern log data. Recent advances in Large Language Models (LLMs) offer promising new approaches to log understanding, but a systematic comparison of LLM-based methods against established techniques remains lacking. In this paper, we present a comprehensive benchmark study evaluating both LLM-based and traditional approaches for log anomaly detection across four widely-used public datasets: HDFS, BGL, Thunderbird, and Spirit. We evaluate three categories of methods: (1) classical log parsers (Drain, Spell, AEL) combined with machine learning classifiers, (2) fine-tuned transformer models (BERT, RoBERTa), and (3) prompt-based LLM approaches (GPT-3.5, GPT-4, LLaMA-3) in zero-shot and few-shot settings. Our experiments reveal that while fine-tuned transformers achieve the highest F1-scores (0.96-0.99), prompt-based LLMs demonstrate remarkablezero-shot capabilities (F1: 0.82-0.91) without requiring any labeled training data -- a significant advantage for real-world deployment where labeled anomalies are scarce. We further analyze the cost-accuracy trade-offs, latency characteristics, and failure modes of each approach. Our findings provide actionable guidelines for practitioners choosing log anomaly detection methods based on their specific constraints regarding accuracy, latency, cost, and label availability. All code and experimental configurations are publicly available to facilitate reproducibility.