FAME: Failure-Aware Mixture-of-Experts for Message-Level Log Anomaly Detection
作者: Huanchi Wang, Zihang Huang, Yifang Tian, Kristina Dzeparoska, Hans-Arno Jacobsen, Alberto Leon-Garcia
分类: cs.SE, cs.LG
发布日期: 2026-05-21
备注: 12 pages, 5 figures
💡 一句话要点
提出FAME:一种面向消息级日志异常检测的故障感知混合专家模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 日志异常检测 混合专家模型 大型语言模型 故障域划分 消息级别检测
📋 核心要点
- 现有日志异常检测方法通常在会话或窗口级别进行,无法精确定位到导致异常的特定消息,导致运维成本高昂。
- FAME利用LLM离线进行一次性分析,将日志模板划分为不同的故障域,并训练轻量级的路由器和专家模型进行在线异常检测。
- 实验表明,FAME在减少标注工作量的同时,能够有效检测消息级别的日志异常,并在BGL和Thunderbird数据集上取得了优秀的性能。
📝 摘要(中文)
生产系统每天生成数百万条日志,但大多数异常检测器在会话或窗口级别运行,标记的是一组日志行,而不是识别导致异常的特定消息。这种粗粒度迫使运维人员检查每个警报中的许多常规日志行。消息级检测提供了更细的粒度,但仍然具有挑战性。单个事件模板可能对应于正常和异常消息,故障来自异构子系统,并且大规模的行级标记是不切实际的。虽然大型语言模型(LLM)可以推理日志语义,但将它们应用于每一行对于持续监控来说成本太高。我们提出了FAME(Failure-Aware Mixture-of-Experts),一种标签高效的消息级混合专家框架,它仅离线使用一次LLM。我们为每个模板最多注释K个标记的行,以导出二元正常/异常指标和代表性示例。LLM提出将模板划分为故障域,并且认证步骤在训练之前验证该提议。FAME训练一个轻量级路由器和域专家,它们在本地运行并输出异常预测和故障域标签。在BGL上,FAME在K = 100时达到F1 = 98.16,减少了76倍的注释工作量,并检测到来自未见过的EventID的86.3%的异常。在Thunderbird上,FAME达到F1 = 99.95,具有完美的召回率。
🔬 方法详解
问题定义:现有日志异常检测方法通常在会话或窗口级别进行,无法精确定位到导致异常的特定消息。此外,对每一条日志进行标注成本高昂,且单个事件模板可能对应正常和异常消息,增加了检测难度。
核心思路:FAME的核心思路是利用LLM的语义理解能力,将日志模板划分到不同的故障域中,然后为每个故障域训练一个专家模型。通过这种方式,可以减少标注工作量,并提高消息级别的异常检测精度。
技术框架:FAME框架包含以下几个主要模块:1) LLM故障域划分:使用LLM对日志模板进行分析,并将其划分到不同的故障域中。2) 认证步骤:验证LLM划分的故障域的合理性。3) 路由器训练:训练一个轻量级的路由器,用于将输入日志消息路由到相应的专家模型。4) 专家模型训练:为每个故障域训练一个专家模型,用于预测该域内的日志消息是否异常。
关键创新:FAME的关键创新在于其利用LLM进行故障域划分,并采用混合专家模型进行消息级别的异常检测。与现有方法相比,FAME能够更精确地定位异常消息,并显著减少标注工作量。
关键设计:FAME的关键设计包括:1) 使用少量标注数据(K个)来训练专家模型。2) 使用LLM进行故障域划分,并进行认证以确保划分的合理性。3) 训练轻量级的路由器和专家模型,以实现高效的在线异常检测。具体的损失函数和网络结构等细节未在摘要中明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
FAME在BGL数据集上,当K=100时,F1值达到98.16%,标注工作量减少了76倍,并且能够检测到86.3%的未见过的EventID的异常。在Thunderbird数据集上,FAME达到了F1=99.95%,具有完美的召回率。这些结果表明,FAME在消息级别的日志异常检测方面具有显著优势。
🎯 应用场景
FAME可应用于各种生产系统的日志异常检测,帮助运维人员快速定位故障根源,提高系统的可靠性和可用性。该方法尤其适用于大规模、复杂的系统,可以有效降低运维成本,提升问题解决效率。未来,FAME可以扩展到其他类型的时序数据异常检测。
📄 摘要(原文)
Production systems generate millions of log lines daily, yet most anomaly detectors operate at the session or window-level, flagging groups of lines rather than identifying the specific message responsible. This coarse granularity forces operators to inspect many routine lines per alert. Message-level detection offers finer granularity, but remains challenging. A single event template may correspond to both normal and anomalous messages, failures arise from heterogeneous subsystems, and line-level labeling at scale is impractical. Although large language models (LLMs) can reason over log semantics, applying them to every line is too costly for continuous monitoring. We present FAME (Failure-Aware Mixture-of-Experts), a label-efficient message-level mixture-of-experts framework that uses an LLM only once offline. We annotate at most K labeled lines per template to derive binary normal/anomaly indicators and representative examples. The LLM proposes a partition of templates into failure domains, and a certification step validates the proposal before training. FAME trains a lightweight router and domain experts that run on-premise and output anomaly predictions and failure-domain labels. On BGL, FAME achieves F1 = 98.16 at K = 100 reducing annotation effort by 76x and detects 86.3% of anomalies from unseen EventIDs. On Thunderbird, FAME reaches F1 = 99.95 with perfect recall.