Argos: Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models
作者: Yile Gu, Yifan Xiong, Jonathan Mace, Yuting Jiang, Yigong Hu, Baris Kasikci, Peng Cheng
分类: cs.LG, cs.DC, cs.MA
发布日期: 2025-01-24
💡 一句话要点
提出Argos以解决云基础设施中的时间序列异常检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 异常检测 时间序列 大型语言模型 可解释性 云基础设施 自主生成 多代理协作
📋 核心要点
- 现有异常检测系统在可解释性、可重复性和自主性方面存在不足,难以满足生产环境的需求。
- Argos通过利用大型语言模型自主生成可解释和可重复的异常检测规则,提升了异常检测的效率和准确性。
- 实验结果显示,Argos在多个数据集上显著提升了F1分数,证明了其优越性和实用性。
📝 摘要(中文)
在云基础设施中,观察性对于服务提供商至关重要,推动了异常检测系统的广泛应用。然而,现有系统在可解释性、可重复性和自主性方面常常难以兼顾。本文提出了Argos,一个利用大型语言模型(LLMs)进行云基础设施时间序列异常检测的自主系统。Argos通过可解释和可重复的异常规则作为中间表示,并利用LLMs自主生成这些规则。该系统通过多个协作代理高效训练无误差且保证准确性的异常规则,并将训练好的规则部署用于低成本的在线异常检测。实验结果表明,Argos在公共异常检测数据集和微软内部数据集上,F1分数分别提高了9.5%和28.3%,超越了现有最先进的方法。
🔬 方法详解
问题定义:本文旨在解决云基础设施中的时间序列异常检测问题。现有方法往往无法同时满足可解释性、可重复性和自主性,限制了其在生产环境中的应用。
核心思路:Argos的核心思路是利用大型语言模型(LLMs)自主生成异常检测规则,通过可解释和可重复的规则来提升检测的有效性和可靠性。
技术框架:Argos的整体架构包括多个协作代理,这些代理共同训练异常规则,并将训练好的规则用于在线异常检测。系统的主要模块包括规则生成模块、训练模块和检测模块。
关键创新:Argos的最大创新在于将LLMs应用于异常规则的自主生成,这一方法显著提高了规则的可解释性和可重复性,与传统方法相比具有本质区别。
关键设计:在设计上,Argos采用了多代理协作机制,确保生成的规则无误差且具备高准确性。具体的参数设置和损失函数设计未在摘要中详细说明,需参考原文获取更多细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Argos在公共异常检测数据集上F1分数提高了9.5%,在微软内部数据集上提高了28.3%。这些结果显示Argos在异常检测性能上超越了现有最先进的方法,证明了其有效性和实用性。
🎯 应用场景
Argos的研究成果在云计算、网络监控和服务提供等领域具有广泛的应用潜力。通过提高异常检测的可解释性和自主性,Argos能够帮助服务提供商更有效地监控和维护其基础设施,降低运营风险,提升服务质量。未来,该技术可能会扩展到其他需要实时监控和异常检测的领域,如金融交易监控和工业设备监控等。
📄 摘要(原文)
Observability in cloud infrastructure is critical for service providers, driving the widespread adoption of anomaly detection systems for monitoring metrics. However, existing systems often struggle to simultaneously achieve explainability, reproducibility, and autonomy, which are three indispensable properties for production use. We introduce Argos, an agentic system for detecting time-series anomalies in cloud infrastructure by leveraging large language models (LLMs). Argos proposes to use explainable and reproducible anomaly rules as intermediate representation and employs LLMs to autonomously generate such rules. The system will efficiently train error-free and accuracy-guaranteed anomaly rules through multiple collaborative agents and deploy the trained rules for low-cost online anomaly detection. Through evaluation results, we demonstrate that Argos outperforms state-of-the-art methods, increasing $F_1$ scores by up to $9.5\%$ and $28.3\%$ on public anomaly detection datasets and an internal dataset collected from Microsoft, respectively.