Characterizing the Fault Response of the Intel Neural Compute Stick 2 Under Single-Pulse Electromagnetic Fault Injection
作者: Štefan Kučerák, Jakub Breier, Xiaolu Hou
分类: cs.CR, cs.AI, cs.LG
发布日期: 2026-05-21
💡 一句话要点
电磁故障注入揭示NCS2在边缘AI应用中存在的严重可靠性问题
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 电磁故障注入 边缘计算 神经网络加速器 可靠性 Intel NCS2
📋 核心要点
- 边缘AI设备在安全攸关应用中日益普及,但其在硬件扰动下的可靠性研究不足。
- 通过电磁故障注入,系统性地分析Intel NCS2在运行常见CNN模型时的故障响应。
- 实验揭示了NCS2在电磁干扰下存在严重的、API层面无法检测的可靠性问题。
📝 摘要(中文)
本文针对日益普及的边缘AI应用中使用的Intel Neural Compute Stick 2 (NCS2)在瞬态硬件扰动下的故障响应进行了研究。通过单脉冲电磁故障注入(EMFI),在NCS2上运行了三个基于OpenVINO的ImageNet预训练卷积神经网络(ResNet-18、ResNet-50、VGG-11)。实验结果表明,单脉冲会产生四种可重现的结果:无精度变化、轻微的静默数据损坏、持续性的严重降级(直至模型重载)以及设备挂起。其中,严重降级可在特定热点区域以18-31%的概率诱发,导致top-1精度低于5%,且持续存在,而推理API层面无法检测到。此外,即使在模型已加载但设备空闲时,电磁脉冲也能诱发这种降级。据此,论文提出了针对不同故障类型的缓解策略,重点关注无需修改设备固件或OpenVINO运行时的应用层机制。
🔬 方法详解
问题定义:论文旨在研究Intel Neural Compute Stick 2 (NCS2)在单脉冲电磁故障注入(EMFI)下的故障响应。现有研究对NCS2在硬件扰动下的可靠性表征不足,尤其是在安全攸关的边缘AI应用中,缺乏系统性的分析。
核心思路:通过EMFI模拟瞬态硬件扰动,观察NCS2在运行不同CNN模型时的行为,并根据实验结果对故障类型进行分类和分析。核心在于揭示NCS2在实际应用中可能存在的、难以被现有软件机制检测到的可靠性问题。
技术框架:实验流程包括:1) 选择NCS2作为目标设备;2) 选择ResNet-18、ResNet-50、VGG-11三个ImageNet预训练模型;3) 使用OpenVINO runtime运行模型;4) 使用EMFI设备进行单脉冲注入,扫描设备上的热点区域;5) 记录和分析实验结果,包括精度变化、设备状态等。
关键创新:该研究的关键创新在于系统性地表征了NCS2在EMFI下的故障响应,并发现了严重的、API层面无法检测的持续性精度降级现象。此外,研究还发现即使在设备空闲时,EMFI也能诱发这种降级,表明仅依赖加载时完整性检查是不够的。
关键设计:实验中,使用了单脉冲EMFI,通过调整脉冲的能量和位置来寻找设备上的敏感区域。针对不同的故障类型,提出了相应的缓解策略,例如模型重载、数据校验等。实验中使用了1536次定点测试和约16000次参数搜索测试。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在特定热点区域,单脉冲电磁注入可以18-31%的概率诱发NCS2的严重降级,导致top-1精度降至5%以下,且持续存在直至模型重载。这种降级无法通过推理API层面检测到。此外,即使在设备空闲时,电磁脉冲也能诱发这种降级,表明仅依赖加载时完整性检查是不够的。
🎯 应用场景
该研究成果对边缘AI设备在安全攸关领域的应用具有重要意义,例如自动驾驶、工业控制、医疗设备等。通过了解NCS2在电磁干扰下的故障模式,可以为开发更可靠的边缘AI系统提供指导,并促进相关安全标准的制定。未来的研究可以进一步探索其他边缘AI设备的可靠性,并开发更有效的硬件和软件缓解措施。
📄 摘要(原文)
Vision processing units and other commercial neural-network inference accelerators are increasingly deployed in safety-relevant edge applications, but their fault response under transient hardware disturbances remains poorly characterized in the open literature. For the Intel Movidius Myriad X, packaged as the Intel Neural Compute Stick 2 (NCS2), only a single feasibility study has been published. We report a systematic single-pulse electromagnetic fault injection (EMFI) campaign on the NCS2 running three ImageNet-trained convolutional neural networks (ResNet-18, ResNet-50, VGG-11) on the OpenVINO runtime. Across 1,536 spot-test trials at characterized hotspots and approximately 16,000 parameter-search trials, single pulses produce four reproducible outcome classes: no measured accuracy change, minor silent data corruption, major persistent degradation that survives across subsequent inferences until model reload, and device hangs requiring USB power-cycling; these outcomes are respectively interpreted as no-effect, SDC with possible SET-like or small persistent-state mechanisms, SEU-like persistent corruption, and SEFI-like loss of functionality. Two findings are central. First, the major-degradation class can be induced at 18-31% of trials at characterized hotspots, with post-collapse top-1 accuracy below five percent and persistence across all subsequent inferences until explicit model reload - a regime that no inference-API-level mechanism detects. Second, this regime is also inducible by pulses delivered to an idle device with the model already loaded, demonstrating that load-time integrity checks alone are insufficient. We discuss mitigation strategies graded by class, focusing on mechanisms implementable at the application level without modification to the device firmware or the OpenVINO runtime.