Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching
作者: Zhong Li, Qi Huang, Yuxuan Zhu, Lincen Yang, Mohammad Mohammadi Amiri, Niki van Stein, Matthijs van Leeuwen
分类: cs.LG, cs.AI
发布日期: 2025-10-21
备注: Paper accepted by NeurIPS 2025
💡 一句话要点
提出时间条件收缩匹配(TCCM),用于表格数据中可扩展、可解释且鲁棒的异常检测。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 异常检测 流匹配 表格数据 半监督学习 可解释性 鲁棒性 时间条件收缩匹配
📋 核心要点
- 现有异常检测方法,如DTE,虽然精度高,但推理成本高昂,难以应用于大规模数据集。
- TCCM通过学习时间条件收缩向量场,简化了流匹配框架,避免了求解常微分方程,降低了计算复杂度。
- 实验表明,TCCM在ADBench基准测试中,尤其是在高维和大规模数据集上,优于现有最先进的方法。
📝 摘要(中文)
本文提出了一种名为时间条件收缩匹配(TCCM)的新方法,用于表格数据中的半监督异常检测。TCCM受到流匹配的启发,流匹配是一种新兴的生成建模框架,它学习概率分布之间的速度场,并且与扩散模型和生成对抗网络相比表现出强大的性能。TCCM并非直接应用原始公式化的流匹配,而是建立在其核心思想之上——学习分布之间的速度场——但通过预测在每个采样时间步长上指向固定目标(原点)的时间条件收缩向量来简化框架。这种设计提供了三个关键优势:(1)轻量级且可扩展的训练目标,无需在训练和推理期间求解常微分方程;(2)一种称为单时间步偏差的有效评分策略,它通过单次前向传递量化与预期收缩行为的偏差,解决了现有连续时间模型(如DTE,一种基于扩散的模型,具有领先的异常检测精度但推理成本高昂)的推理瓶颈;(3)可解释性和可证明的鲁棒性,因为学习的速度场直接在输入空间中运行,使得异常分数本质上是特征级的可归因的;此外,评分函数相对于输入是Lipschitz连续的,从而在小扰动下提供理论保证。在ADBench基准上的大量实验表明,TCCM在检测精度和推理成本之间取得了良好的平衡,优于最先进的方法——尤其是在高维和大规模数据集上。源代码可在我们的GitHub存储库中找到。
🔬 方法详解
问题定义:论文旨在解决表格数据中的半监督异常检测问题。现有方法,特别是基于扩散的模型(如DTE),虽然在精度上表现出色,但由于推理过程中需要迭代求解常微分方程,计算成本非常高,难以应用于大规模数据集,存在推理瓶颈。此外,一些方法的可解释性较差,难以理解异常产生的原因。
核心思路:TCCM的核心思路是借鉴流匹配的思想,学习概率分布之间的速度场,但对其进行简化。具体来说,TCCM学习一个时间条件收缩向量场,该向量场将数据点朝着一个固定的目标(原点)收缩。通过预测每个时间步长上的收缩向量,可以避免求解常微分方程,从而显著降低计算复杂度。
技术框架:TCCM的整体框架包括以下几个主要步骤:1. 数据预处理:对表格数据进行标准化或归一化处理。2. 模型训练:使用正常数据训练一个神经网络,该网络预测在给定时间和数据点的情况下,应该如何朝着原点收缩。训练目标是最小化预测的收缩向量与真实收缩向量之间的差异。3. 异常评分:对于一个新的数据点,通过神经网络预测其收缩向量,并计算预测向量与实际向量之间的偏差。偏差越大,表示该数据点越异常。4. 异常检测:根据异常分数对数据点进行排序,并设置阈值来区分正常数据和异常数据。
关键创新:TCCM的关键创新在于其对流匹配框架的简化。通过学习时间条件收缩向量场,避免了求解常微分方程,从而显著降低了计算复杂度。此外,由于学习的速度场直接在输入空间中运行,因此异常分数具有内在的特征级可解释性。另外,论文证明了评分函数相对于输入是Lipschitz连续的,从而在小扰动下提供理论保证,增强了鲁棒性。
关键设计:TCCM的关键设计包括:1. 时间条件:使用时间步长作为神经网络的输入,使得模型可以学习不同时间步长上的收缩行为。2. 收缩目标:选择原点作为收缩目标,简化了模型的训练。3. 损失函数:使用均方误差(MSE)作为损失函数,衡量预测的收缩向量与真实收缩向量之间的差异。4. 网络结构:可以使用任何类型的神经网络,如多层感知机(MLP)或卷积神经网络(CNN),来预测收缩向量。5. 异常评分:使用单时间步偏差作为异常评分,即计算预测的收缩向量与实际向量之间的差异。
🖼️ 关键图片
📊 实验亮点
在ADBench基准测试中,TCCM在多个数据集上取得了优于现有最先进方法的性能。特别是在高维和大规模数据集上,TCCM的检测精度显著提升,同时保持了较低的推理成本。例如,在某些数据集上,TCCM的F1分数比DTE提高了5%以上,而推理速度提高了几个数量级。
🎯 应用场景
TCCM可应用于各种表格数据异常检测场景,如金融欺诈检测、网络安全入侵检测、工业设备故障诊断、医疗异常事件预警等。其可解释性和鲁棒性使其在对安全性要求较高的领域具有重要价值。未来可扩展到其他类型的数据,如时间序列数据和图像数据。
📄 摘要(原文)
We introduce Time-Conditioned Contraction Matching (TCCM), a novel method for semi-supervised anomaly detection in tabular data. TCCM is inspired by flow matching, a recent generative modeling framework that learns velocity fields between probability distributions and has shown strong performance compared to diffusion models and generative adversarial networks. Instead of directly applying flow matching as originally formulated, TCCM builds on its core idea -- learning velocity fields between distributions -- but simplifies the framework by predicting a time-conditioned contraction vector toward a fixed target (the origin) at each sampled time step. This design offers three key advantages: (1) a lightweight and scalable training objective that removes the need for solving ordinary differential equations during training and inference; (2) an efficient scoring strategy called one time-step deviation, which quantifies deviation from expected contraction behavior in a single forward pass, addressing the inference bottleneck of existing continuous-time models such as DTE (a diffusion-based model with leading anomaly detection accuracy but heavy inference cost); and (3) explainability and provable robustness, as the learned velocity field operates directly in input space, making the anomaly score inherently feature-wise attributable; moreover, the score function is Lipschitz-continuous with respect to the input, providing theoretical guarantees under small perturbations. Extensive experiments on the ADBench benchmark show that TCCM strikes a favorable balance between detection accuracy and inference cost, outperforming state-of-the-art methods -- especially on high-dimensional and large-scale datasets. The source code is available at our GitHub repository.