TinyM$^2$Net-V3: Memory-Aware Compressed Multimodal Deep Neural Networks for Sustainable Edge Deployment

📄 arXiv: 2405.12353v1 📥 PDF

作者: Hasib-Al Rashid, Tinoosh Mohsenin

分类: cs.LG

发布日期: 2024-05-20

备注: Accepted at AAAI 2024 Workshop SAI


💡 一句话要点

TinyM$^2$Net-V3:面向可持续边缘部署的内存感知压缩多模态深度神经网络

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 多模态学习 模型压缩 知识蒸馏 量化 深度神经网络 低功耗

📋 核心要点

  1. 现有边缘设备上的多模态TinyML模型面临着高复杂性、高延迟和高功耗的挑战,难以在资源受限的环境中有效部署。
  2. TinyM$^2$Net-V3通过处理互补的多模态数据,并结合知识蒸馏和低比特量化等模型压缩技术,优化模型大小和能效。
  3. 在COVID-19检测和姿势分类两个多模态案例中,TinyM$^2$Net-V3实现了高精度(92.95%和90.7%),同时保持了低延迟和高能效。

📝 摘要(中文)

随着人工智能算法的日益复杂,能源消耗和二氧化碳排放显著增加,加剧了对气候变化的担忧。这一问题凸显了人工智能技术环境可持续性的重要性,尤其是在其广泛应用于各个领域的情况下。为了应对这些挑战,迫切需要开发可持续的人工智能解决方案。这些方案必须侧重于节能嵌入式系统,使其能够在资源有限的环境中处理多样化的数据类型,从而确保技术进步和环境责任。将互补的多模态数据集成到边缘设备上的微型机器学习模型中具有挑战性,因为这会增加复杂性、延迟和功耗。本文介绍了TinyM$^2$Net-V3,该系统处理不同模态的互补数据,设计深度神经网络(DNN)模型,并采用模型压缩技术,包括知识蒸馏和低比特宽度量化,同时考虑内存感知,以将模型适配到较低的内存层级中,从而减少延迟并提高资源受限设备上的能源效率。我们在两个多模态案例研究中评估了TinyM$^2$Net-V3:使用咳嗽、语音和呼吸音频进行COVID-19检测,以及从深度和热图像进行姿势分类。通过微小的推理模型(6 KB和58 KB),我们分别实现了92.95%和90.7%的准确率。我们部署在资源受限硬件上的微型机器学习模型,展示了毫秒级的低延迟和非常高的功率效率。

🔬 方法详解

问题定义:论文旨在解决在资源受限的边缘设备上部署多模态深度神经网络时,模型体积过大、推理延迟高、功耗高等问题。现有方法难以在保证精度的同时,将模型压缩到足够小,并实现低延迟和低功耗的推理。

核心思路:论文的核心思路是设计一个内存感知的模型压缩框架,TinyM$^2$Net-V3,通过结合知识蒸馏和低比特量化等技术,在压缩模型大小的同时,尽可能地保留模型的精度。同时,该框架还考虑了模型在不同内存层级上的存储和访问,以优化推理延迟和功耗。这样设计的目的是为了使模型能够适应边缘设备的资源限制,并实现高效的推理。

技术框架:TinyM$^2$Net-V3的整体框架包括以下几个主要阶段:1) 多模态数据处理:对不同模态的数据进行预处理和特征提取。2) DNN模型设计:设计适合于特定任务的深度神经网络模型。3) 模型压缩:采用知识蒸馏和低比特宽度量化等技术对模型进行压缩。4) 内存感知优化:考虑模型在不同内存层级上的存储和访问,优化推理延迟和功耗。5) 部署和评估:将压缩后的模型部署到边缘设备上,并评估其性能。

关键创新:该论文的关键创新在于提出了一个内存感知的模型压缩框架,TinyM$^2$Net-V3。与传统的模型压缩方法相比,TinyM$^2$Net-V3不仅考虑了模型的大小,还考虑了模型在不同内存层级上的存储和访问,从而能够更有效地优化推理延迟和功耗。此外,该框架还结合了知识蒸馏和低比特量化等多种压缩技术,以实现更高的压缩率和更好的精度。

关键设计:在模型压缩方面,论文采用了知识蒸馏和低比特宽度量化两种技术。知识蒸馏通过将一个大型教师模型的知识迁移到一个小型学生模型,从而在压缩模型大小的同时,尽可能地保留模型的精度。低比特宽度量化通过将模型的权重和激活值量化到较低的比特宽度,从而进一步减小模型的大小。在内存感知优化方面,论文考虑了模型在不同内存层级上的存储和访问,并采用了一些优化策略,例如模型重排,以减少内存访问延迟。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TinyM$^2$Net-V3在两个多模态案例研究中表现出色。在COVID-19检测任务中,仅使用6KB的模型实现了92.95%的准确率;在姿势分类任务中,使用58KB的模型实现了90.7%的准确率。这些结果表明,TinyM$^2$Net-V3能够在极小的模型尺寸下,实现与大型模型相媲美的性能,并且具有低延迟和高能效的优点。

🎯 应用场景

该研究成果可广泛应用于各种需要低功耗、低延迟和小型化模型的边缘计算场景,例如:智能医疗(远程健康监测、疾病诊断)、智能安防(异常行为检测、身份识别)、智能家居(语音助手、环境感知)和工业自动化(设备状态监测、故障预测)。通过在边缘设备上部署高效的AI模型,可以实现实时数据处理和决策,降低对云端服务器的依赖,提高系统的响应速度和安全性。

📄 摘要(原文)

The advancement of sophisticated artificial intelligence (AI) algorithms has led to a notable increase in energy usage and carbon dioxide emissions, intensifying concerns about climate change. This growing problem has brought the environmental sustainability of AI technologies to the forefront, especially as they expand across various sectors. In response to these challenges, there is an urgent need for the development of sustainable AI solutions. These solutions must focus on energy-efficient embedded systems that are capable of handling diverse data types even in environments with limited resources, thereby ensuring both technological progress and environmental responsibility. Integrating complementary multimodal data into tiny machine learning models for edge devices is challenging due to increased complexity, latency, and power consumption. This work introduces TinyM$^2$Net-V3, a system that processes different modalities of complementary data, designs deep neural network (DNN) models, and employs model compression techniques including knowledge distillation and low bit-width quantization with memory-aware considerations to fit models within lower memory hierarchy levels, reducing latency and enhancing energy efficiency on resource-constrained devices. We evaluated TinyM$^2$Net-V3 in two multimodal case studies: COVID-19 detection using cough, speech, and breathing audios, and pose classification from depth and thermal images. With tiny inference models (6 KB and 58 KB), we achieved 92.95% and 90.7% accuracies, respectively. Our tiny machine learning models, deployed on resource limited hardware, demonstrated low latencies within milliseconds and very high power efficiency.