Benchmarking Sensor-Fault Robustness in Forecasting

作者: Alexander Windmann, Philipp Wittenberg, Gianluca Manca, Marcel Dix, Jens U. Brandt, Oliver Niggemann

分类: cs.LG, eess.SP

发布日期: 2026-05-11

💡 一句话要点

提出SensorFault-Bench基准测试协议，量化评估信息物理系统（CPS）预测模型的传感器故障鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 信息物理系统 传感器故障 鲁棒性评估 时间序列预测 基准测试 对抗训练

📋 核心要点

现有预测模型评估仅关注理想环境下的MSE，无法反映模型在传感器噪声、偏差或缺失等故障场景下的真实鲁棒性。
提出SensorFault-Bench基准测试协议，通过标准化的故障严重程度模型和故障转移划分，系统性地评估预测架构的鲁棒性。
实验揭示了理想指标与故障鲁棒性之间的脱节，并验证了对抗训练与数据增强在不同故障类型下的针对性改进效果。

📝 摘要（中文）

信息物理系统（CPS）的预测模型高度依赖传感器数据流，但现实中常面临噪声、偏差、缺失或时间对齐偏差等问题。现有的预测模型评估往往仅关注理想状态下的均方误差（MSE），忽略了模型在传感器故障下的鲁棒性。本文提出了SensorFault-Bench，这是一个基于CPS场景的传感器故障压力测试协议，包含一套操作分类法，用于评估预测架构及鲁棒性改进方法。通过四个真实世界数据集和八个标准化严重程度的场景，该基准测试报告了最差场景下的性能退化、理想MSE以及故障期间的MSE，从而将相对鲁棒性与绝对误差区分开来。实验表明，在理想条件下表现优异的模型在故障场景下可能出现剧烈退化，且模型排名在不同条件下存在显著差异。此外，研究对比了多种鲁棒性改进方法，为未来CPS预测模型的可靠性评估提供了标准化的开源框架。

🔬 方法详解

问题定义：论文旨在解决CPS领域预测模型在面对传感器故障（如噪声、偏差、缺失、时间错位）时缺乏鲁棒性评估标准的问题。现有研究过度依赖“干净”数据下的MSE指标，导致模型在实际部署中遇到传感器异常时性能急剧下降。

核心思路：引入SensorFault-Bench协议，通过将故障类型分类并标准化严重程度，建立一套能够量化“最差场景退化”与“绝对误差”的评估体系，从而揭示模型在极端条件下的真实表现。

技术框架：该框架包含四个真实数据集，通过故障注入模块模拟不同严重程度的传感器故障，并采用“故障转移划分（disjoint fault-transfer split）”策略，确保训练与评估在不同的故障家族中进行，以测试模型的泛化鲁棒性。

关键创新：最重要的创新在于将“相对鲁棒性”与“绝对误差”解耦，并引入了针对故障类型的分类法，能够明确区分模型在处理值故障（Value Faults）与可用性故障（Availability Faults）时的不同表现。

关键设计：采用了标准化的严重程度模型来控制故障注入强度；对比了包括投影梯度下降（PGD）对抗训练和随机训练在内的多种鲁棒性改进方法，并利用配对增量（paired deltas）分析不同方法在特定故障类型下的性能提升。

🖼️ 关键图片

📊 实验亮点

实验发现，在理想MSE下表现优异的模型（如Chronos-2）在故障场景下可能出现严重退化，且排名与理想状态不一致。研究量化了不同鲁棒性策略的有效性：PGD对抗训练在处理值故障时表现领先，而故障增强策略在应对传感器可用性故障（缺失数据）时效果更佳，为模型选择提供了明确的性能参考。

🎯 应用场景

该研究主要应用于工业物联网（IIoT）、智能电网、自动驾驶及航空航天等信息物理系统（CPS）领域。通过该基准测试，工程师能够筛选出在传感器故障环境下表现稳健的预测算法，从而提升关键基础设施在恶劣环境下的运行可靠性与安全性，减少因传感器异常导致的系统决策失误。

📄 摘要（原文）

Cyber-physical system (CPS) forecasting models depend on sensor streams with noisy, biased, missing, or temporally misaligned readings, yet standard forecasting evaluation often selects models by nominal error without showing whether they remain robust under such faults. We introduce SensorFault-Bench, a shared CPS-grounded sensor-fault stress-test protocol for evaluating forecasting architectures and robustness-improvement methods, and an operational taxonomy organizing the method comparison. Across four real-world datasets and eight scored scenarios governed by a standardized severity model, it reports worst-scenario degradation, clean mean squared error (MSE), and worst-scenario fault-time MSE, separating relative robustness from absolute error. A disjoint fault-transfer split lets explicit fault-training methods train on adjacent fault families while evaluation uses separate benchmark scenarios. Empirically, forecasting architectures favored by clean MSE can degrade sharply under faults, and clean-MSE rankings can disagree with worst-scenario fault-time error rankings. Chronos-2, the evaluated zero-shot foundation-model representative, matches or trails the last-value naive forecaster in clean MSE on the two single-target datasets and has the largest worst-scenario degradation on ETTh1 and Traffic, where all channels are forecast targets. For the evaluated robustness-improvement method set, paired deltas show selective degradation reductions: projected gradient descent adversarial training and randomized training lead where value faults dominate observed degradation, while fault augmentation leads where availability faults dominate. SensorFault-Bench provides open-source code, documented data access, and reproduction and extension guides, so new datasets, architectures, and robustness-improvement methods can be evaluated under the same CPS sensor-fault robustness protocol.

Benchmarking Sensor-Fault Robustness in Forecasting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理