ARFBench: Benchmarking Time Series Question Answering Ability for Software Incident Response

作者: Stephan Xie, Ben Cohen, Mononito Goswami, Junhong Shen, Emaad Khwaja, Chenghao Liu, David Asker, Othmane Abou-Amal, Ameet Talwalkar

分类: cs.LG, cs.CV

发布日期: 2026-04-23

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

ARFBench：软件事件响应时序问答能力评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时序问答 软件事件响应 多模态学习 基准测试 异常检测

📋 核心要点

现有方法在软件事件响应中，缺乏对时序数据进行有效推理和问答的能力，阻碍了快速定位和解决问题的效率。
论文提出ARFBench基准，旨在评估和提升多模态基础模型在理解和推理软件事件时序数据异常方面的能力。
实验结果表明，前沿VLM模型表现优异，同时提出的TSFM+VLM混合模型通过后训练可达到与前沿模型相当的性能。

📝 摘要（中文）

时序问答(TSQA)是一种有前景但尚未充分探索的基础模型能力，它通过自然语言提问来推断和推理时序数据的属性。本文提出了ARFBench，一个TSQA基准，用于评估多模态基础模型(FMs)对软件事件数据中常见时序异常的理解能力。ARFBench包含来自Datadog内部遥测数据的63个生产事件的142个时间序列和538万个数据点上的750个问题。我们评估了领先的专有和开源LLM、VLM和时序FM，观察到前沿VLM的性能明显优于现有基线；领先模型(GPT-5)实现了62.7%的准确率和51.9%的F1。我们进一步展示了专用多模态方法的潜力，开发了一种新型TSFM + VLM混合原型，通过在少量合成和真实数据上进行后训练，获得了与前沿模型相当的总体F1和准确率。最后，我们发现模型和人类领域专家表现出互补的优势。我们定义了一个模型-专家Oracle，即模型和专家答案之间的最佳选择器，产生了82.8%的F1和87.2%的准确率，为未来的TSQA模型建立了一个新的超人前沿。该基准可在https://huggingface.co/datasets/Datadog/ARFBench上获得。

🔬 方法详解

问题定义：论文旨在解决软件事件响应中，如何利用时序数据进行有效问答的问题。现有方法难以充分利用时序数据中的信息，无法快速准确地定位和解决问题。痛点在于缺乏一个专门用于评估和提升模型在时序数据问答能力方面的基准。

核心思路：论文的核心思路是构建一个高质量的、包含真实软件事件数据的时序问答基准ARFBench。通过该基准，可以系统地评估现有模型的性能，并促进新型模型的开发，从而提升软件事件响应的效率。

技术框架：ARFBench基准包含以下几个关键组成部分：1) 从Datadog内部遥测数据中收集的真实软件事件时序数据；2) 基于这些时序数据构建的自然语言问题；3) 用于评估模型性能的指标，如准确率和F1值。此外，论文还提出了一个TSFM+VLM混合模型，并使用合成和真实数据进行后训练。

关键创新：ARFBench基准的创新之处在于：1) 数据来源于真实的软件事件，更具实际意义；2) 包含了大量的时序数据和问题，可以更全面地评估模型的性能；3) 提出了模型-专家Oracle，结合了模型和人类专家的优势，为未来的TSQA模型设定了新的目标。

关键设计：ARFBench基准的数据集构建过程包括数据清洗、问题生成和答案验证等步骤。TSFM+VLM混合模型的设计细节未知，但关键在于如何有效地融合时序模型和视觉语言模型的优势。后训练过程使用了少量合成和真实数据，具体的数据增强和训练策略未知。

📊 实验亮点

实验结果表明，GPT-5在ARFBench基准上取得了62.7%的准确率和51.9%的F1值，优于其他基线模型。提出的TSFM+VLM混合模型通过后训练，获得了与前沿模型相当的性能。模型-专家Oracle实现了82.8%的F1和87.2%的准确率，为未来的TSQA模型设定了新的目标。

🎯 应用场景

该研究成果可应用于智能运维领域，帮助运维人员快速定位和解决软件事件。通过利用时序问答技术，可以更高效地分析监控数据，预测潜在问题，并自动生成解决方案。未来，该技术有望实现自动化事件响应，大幅提升运维效率。

📄 摘要（原文）

Time series question-answering (TSQA), in which we ask natural language questions to infer and reason about properties of time series, is a promising yet underexplored capability of foundation models. In this work, we present ARFBench, a TSQA benchmark that evaluates the understanding of multimodal foundation models (FMs) on time series anomalies prevalent in software incident data. ARFBench consists of 750 questions across 142 time series and 5.38M data points from 63 production incidents sourced exclusively from internal telemetry at Datadog. We evaluate leading proprietary and open-source LLMs, VLMs, and time series FMs and observe that frontier VLMs perform markedly better than existing baselines; the leading model (GPT-5) achieves a 62.7% accuracy and 51.9% F1. We next demonstrate the promise of specialized multimodal approaches. We develop a novel TSFM + VLM hybrid prototype which we post-train on a small set of synthetic and real data that yields comparable overall F1 and accuracy with frontier models. Lastly, we find models and human domain experts exhibit complementary strengths. We define a model-expert oracle, a best-of-2 oracle selector over model and expert answers, yielding 82.8% F1 and 87.2% accuracy and establishing a new superhuman frontier for future TSQA models. The benchmark is available at https://huggingface.co/datasets/Datadog/ARFBench.

ARFBench: Benchmarking Time Series Question Answering Ability for Software Incident Response

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理