Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

作者: Xiaona Zhou, Muntasir Wahed, Tianjiao Yu, Constantin Brif, Ismini Lourentzou

分类: cs.AI

发布日期: 2026-05-28

💡 一句话要点

提出VisAnomReasoner，一种高效的视觉-语言推理模型，用于时间序列异常检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间序列异常检测 视觉-语言模型 可解释性 参数高效 基准数据集

📋 核心要点

现有方法在时间序列异常检测中应用大型语言模型或多模态模型时，性能不佳，缺乏自然语言解释。
论文提出VisAnomReasoner，通过在VisAnomBench上微调，实现参数高效的视觉-语言推理，用于异常检测。
实验表明，VisAnomReasoner在VisAnomBench和TSB-AD-U上均显著优于现有方法，提升了异常定位的精度和F1值。

📝 摘要（中文）

近年来，视觉-语言模型(VLMs)在许多任务中取得了显著的性能，但将大型语言或多模态模型应用于时间序列数据中的异常模式检测时，效果并不理想。现有的异常检测基准通常提供区间标注，但缺乏自然语言解释，这使得微调VLMs以产生有依据、可解释的决策变得困难。为了解决这个问题，我们构建了VisAnomBench，这是一个从公共时间序列数据集中构建的基准，并使用从多个大型VLMs中选择的高质量异常解释进行增强，这些解释通过细粒度的、特定于任务的奖励进行选择。通过在这个基准上进行微调，我们开发了VisAnomReasoner，一种用于时间序列异常检测的参数高效VLM。在VisAnomBench上的实验结果表明，VisAnomReasoner实现了更准确的异常定位，并且始终优于所有基线，在精度和F1方面分别提高了至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验证明了强大的跨基准泛化能力，VisAnomReasoner在精度和F1方面分别提高了9.57和13.39个百分点。

🔬 方法详解

问题定义：现有时间序列异常检测方法缺乏可解释性，难以利用大型视觉-语言模型(VLM)的强大能力。公开的异常检测数据集通常只提供区间标注，而缺乏自然语言的解释，这使得VLM难以进行有效的微调，从而无法产生有依据且可解释的决策。因此，如何让VLM能够理解时间序列数据中的异常模式，并给出合理的解释，是一个亟待解决的问题。

核心思路：论文的核心思路是构建一个高质量的、带有自然语言解释的时间序列异常检测基准数据集VisAnomBench，并在此基础上微调一个参数高效的VLM模型VisAnomReasoner。通过这种方式，VLM可以学习到时间序列数据中的异常模式与自然语言解释之间的对应关系，从而实现可解释的异常检测。

技术框架：VisAnomReasoner的整体框架包括以下几个主要步骤：1) 构建VisAnomBench数据集，该数据集包含时间序列数据和对应的异常解释；2) 选择一个预训练的VLM模型作为基础模型；3) 在VisAnomBench数据集上对VLM模型进行微调，使其能够根据时间序列数据预测异常的发生，并给出相应的自然语言解释；4) 使用评估指标对模型的性能进行评估。

关键创新：论文的关键创新在于：1) 构建了VisAnomBench数据集，该数据集为VLM在时间序列异常检测领域的应用提供了高质量的训练数据；2) 提出了VisAnomReasoner模型，该模型通过参数高效的微调，实现了在时间序列异常检测任务上的高性能和可解释性。与现有方法相比，VisAnomReasoner能够更好地利用VLM的强大能力，并给出更合理的异常解释。

关键设计：VisAnomBench数据集的关键设计在于其高质量的异常解释，这些解释是通过从多个大型VLMs中选择，并使用细粒度的、特定于任务的奖励进行筛选得到的。VisAnomReasoner模型的关键设计在于其参数高效的微调策略，该策略能够在保证模型性能的同时，减少计算资源的消耗。具体的损失函数和网络结构等技术细节在论文中有详细描述，此处不再赘述。

📊 实验亮点

VisAnomReasoner在VisAnomBench上取得了显著的性能提升，精度和F1分别提高了至少21.23和23.87个百分点。此外，在TSB-AD-U基准上的实验表明，VisAnomReasoner具有很强的跨基准泛化能力，精度和F1分别提高了9.57和13.39个百分点。这些结果表明，VisAnomReasoner是一种有效的、可泛化的时间序列异常检测方法。

🎯 应用场景

该研究成果可应用于各种时间序列异常检测场景，例如工业生产中的设备故障诊断、金融交易中的欺诈检测、网络安全中的入侵检测等。通过提供可解释的异常检测结果，该方法可以帮助领域专家更好地理解异常的原因，并采取相应的措施，具有重要的实际应用价值和潜在的商业前景。

📄 摘要（原文）

Recent advances in Vision-Language Models (VLMs) have achieved impressive performance across many tasks, yet prior studies report unsatisfactory performance when applying large language or multimodal models to finding abnormal patterns in sequential data. Public anomaly detection benchmarks typically provide interval annotations but not natural-language rationales, making it difficult to fine-tune VLMs to produce grounded, interpretable decisions. To address this gap, we construct VisAnomBench, a curated benchmark built from public time-series datasets and augmented with high-quality anomaly explanations selected from multiple large VLMs using fine-grained, task-specific rewards. Through fine-tuning on this benchmark, we develop VisAnomReasoner, a parameter-efficient VLM for time-series anomaly detection. Experimental results on VisAnomBench show that VisAnomReasoner achieves more accurate anomaly localization and consistently outperforms all baselines, with improvements of at least 21.23 and 23.87 percentage points in precision and F1, respectively. Additional experiments on the TSB-AD-U benchmark demonstrate strong cross-benchmark generalization, with VisAnomReasoner improving precision and F1 by 9.57 and 13.39 percentage points, respectively.

Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理