ContraLog: Log File Anomaly Detection with Contrastive Learning and Masked Language Modeling

📄 arXiv: 2602.03678v1 📥 PDF

作者: Simon Dietz, Kai Klede, An Nguyen, Bjoern M Eskofier

分类: cs.LG, cs.AI

发布日期: 2026-02-03

备注: 26 pages with 16 figures


💡 一句话要点

ContraLog:基于对比学习和掩码语言模型的日志文件异常检测方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 日志异常检测 对比学习 掩码语言模型 自监督学习 嵌入表示

📋 核心要点

  1. 现有日志异常检测方法依赖日志解析器,损失了变量值和语义信息,限制了检测精度。
  2. ContraLog通过对比学习和掩码语言模型,学习日志消息的连续嵌入表示,无需解析器。
  3. 实验表明,ContraLog在复杂数据集上有效,且消息嵌入本身就具有异常预测能力。

📝 摘要(中文)

日志文件记录了计算事件,反映了系统状态和行为,是现代计算机系统中运营洞察力的主要来源。因此,日志的自动异常检测至关重要,但大多数已建立的方法依赖于日志解析器,这些解析器将消息折叠成离散的模板,丢弃了变量值和语义内容。我们提出了ContraLog,一种无需解析器且自监督的方法,它将日志异常检测重新定义为预测连续消息嵌入,而不是离散模板ID。ContraLog结合了一个消息编码器,为单个日志消息生成丰富的嵌入,以及一个序列编码器,用于对序列中的时间依赖性进行建模。该模型通过掩码语言建模和对比学习相结合的方式进行训练,以基于周围的上下文预测被掩盖的消息嵌入。在HDFS、BGL和Thunderbird基准数据集上的实验经验性地证明了在具有多样化日志消息的复杂数据集上的有效性。此外,我们发现ContraLog生成的消息嵌入携带了有意义的信息,即使没有序列上下文,也能预测异常。这些结果突出了嵌入级别的预测作为日志异常检测的一种方法,并可能适用于其他事件序列。

🔬 方法详解

问题定义:现有日志异常检测方法通常依赖于日志解析器,将日志消息转换为离散的模板ID。这种方法的痛点在于,它忽略了日志消息中的变量值和语义信息,导致检测精度受限,尤其是在日志消息多样性较高的复杂系统中。

核心思路:ContraLog的核心思路是将日志异常检测问题转化为预测连续消息嵌入的问题。通过学习日志消息的嵌入表示,模型可以捕捉到消息的语义信息和上下文关系,从而更准确地识别异常。这种方法避免了对日志解析器的依赖,能够处理更复杂的日志数据。

技术框架:ContraLog的整体框架包含两个主要模块:消息编码器和序列编码器。消息编码器负责将单个日志消息转换为嵌入向量,序列编码器则用于建模日志序列中的时间依赖关系。模型首先使用掩码语言建模(MLM)和对比学习进行自监督训练,然后可以使用训练好的模型进行异常检测。具体流程是,输入日志序列,模型预测每个消息的嵌入,然后根据预测嵌入和实际嵌入之间的差异来判断是否存在异常。

关键创新:ContraLog的关键创新在于它将日志异常检测问题从离散的模板ID预测转化为连续的嵌入向量预测。这种方法能够更好地捕捉日志消息的语义信息和上下文关系,从而提高异常检测的准确性。此外,ContraLog采用自监督学习的方式进行训练,无需人工标注数据,降低了模型的部署成本。

关键设计:ContraLog的消息编码器可以使用预训练的语言模型(如BERT)或自定义的神经网络结构。序列编码器可以使用循环神经网络(RNN)或Transformer等模型。在训练过程中,ContraLog使用掩码语言建模(MLM)来预测被掩盖的消息嵌入,并使用对比学习来区分正常消息和异常消息的嵌入。损失函数通常包括MLM损失和对比损失的加权和。具体的参数设置需要根据数据集的特点进行调整。

📊 实验亮点

ContraLog在HDFS、BGL和Thunderbird三个基准数据集上进行了评估,实验结果表明,ContraLog在复杂数据集上表现出色,能够有效地检测日志异常。研究发现,即使没有序列上下文,ContraLog生成的消息嵌入也具有很强的异常预测能力,这表明嵌入级别的预测是日志异常检测的一种有效方法。

🎯 应用场景

ContraLog可应用于各种需要日志分析的场景,例如云计算平台、分布式系统、网络安全监控等。它可以帮助运维人员自动检测系统中的异常行为,及时发现潜在问题,提高系统的可靠性和稳定性。此外,ContraLog还可以用于安全审计和故障诊断,帮助分析人员快速定位问题根源。

📄 摘要(原文)

Log files record computational events that reflect system state and behavior, making them a primary source of operational insights in modern computer systems. Automated anomaly detection on logs is therefore critical, yet most established methods rely on log parsers that collapse messages into discrete templates, discarding variable values and semantic content. We propose ContraLog, a parser-free and self-supervised method that reframes log anomaly detection as predicting continuous message embeddings rather than discrete template IDs. ContraLog combines a message encoder that produces rich embeddings for individual log messages with a sequence encoder to model temporal dependencies within sequences. The model is trained with a combination of masked language modeling and contrastive learning to predict masked message embeddings based on the surrounding context. Experiments on the HDFS, BGL, and Thunderbird benchmark datasets empirically demonstrate effectiveness on complex datasets with diverse log messages. Additionally, we find that message embeddings generated by ContraLog carry meaningful information and are predictive of anomalies even without sequence context. These results highlight embedding-level prediction as an approach for log anomaly detection, with potential applicability to other event sequences.