Efficient Few-Shot Learning for Edge AI via Knowledge Distillation on MobileViT
作者: Shuhei Tsuyuki, Reda Bensaid, Jérémy Morlier, Mathieu Léonardon, Naoya Onizawa, Vincent Gripon, Takahiro Hanyu
分类: cs.CV
发布日期: 2026-03-27
💡 一句话要点
提出基于知识蒸馏的MobileViT边缘AI少样本学习方法,提升精度并降低功耗。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 少样本学习 知识蒸馏 边缘计算 MobileViT 模型压缩 Jetson Orin Nano 低功耗 模型优化
📋 核心要点
- 边缘设备上高效深度学习模型的需求日益增长,但现有方法在低数据场景下的性能和效率存在挑战。
- 利用知识蒸馏,将大型教师模型的知识迁移到轻量级的MobileViT学生模型,提升少样本学习的泛化能力。
- 实验表明,该方法在精度、模型大小和功耗方面均优于基线方法,并在Jetson Orin Nano平台上实现了低延迟和低功耗。
📝 摘要(中文)
本文提出了一种针对边缘计算的MobileViT骨干网络的预训练方法,旨在提升边缘设备上少样本学习的效率。该方法采用知识蒸馏,将大规模教师模型的泛化能力迁移到轻量级学生模型。在MiniImageNet基准测试中,与ResNet12基线相比,该方法在one-shot和five-shot分类中分别实现了14%和6.7%的精度提升,同时将参数数量减少了69%,计算复杂度降低了88%(以FLOPs衡量)。此外,在Jetson Orin Nano平台上部署了所提出的模型,并直接测量了电源的功耗,结果表明,动态功耗降低了37%,延迟为2.6毫秒。这些结果表明,该方法是一种有前景且实用的解决方案,可用于在边缘AI硬件上部署少样本学习模型。
🔬 方法详解
问题定义:论文旨在解决边缘设备上少样本学习的效率和精度问题。现有方法在边缘设备上部署时,通常面临计算资源有限、功耗敏感以及数据稀缺的挑战,难以同时保证精度和效率。
核心思路:论文的核心思路是利用知识蒸馏,将一个在大量数据上训练的大型教师模型的知识迁移到一个轻量级的MobileViT学生模型。这样可以在保持较高精度的同时,显著降低模型的参数量和计算复杂度,使其更适合在边缘设备上部署。
技术框架:整体框架包括两个阶段:首先,训练一个大型的教师模型(未明确指定具体模型,但应具有较强的泛化能力);然后,使用教师模型的输出作为软标签,训练一个轻量级的MobileViT学生模型。学生模型的目标是模仿教师模型的行为,从而获得更好的泛化能力。
关键创新:关键创新在于将知识蒸馏技术应用于MobileViT,并针对边缘计算场景进行了优化。MobileViT本身是一种轻量级的视觉Transformer模型,结合知识蒸馏可以进一步提升其在少样本学习任务上的性能,同时保持较低的计算成本。
关键设计:论文中未明确给出知识蒸馏的具体损失函数形式,但通常会采用KL散度或交叉熵损失来衡量学生模型和教师模型输出之间的差异。MobileViT的网络结构细节可以参考原始论文。论文重点在于将知识蒸馏应用于MobileViT,并验证其在边缘设备上的有效性,因此对具体的网络结构和损失函数设计没有进行特别的创新。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与ResNet12基线相比,该方法在MiniImageNet基准测试中,one-shot分类精度提升了14%,five-shot分类精度提升了6.7%,同时参数数量减少了69%,计算复杂度降低了88%。在Jetson Orin Nano平台上,动态功耗降低了37%,延迟为2.6毫秒。这些数据充分证明了该方法在精度、效率和功耗方面的优势。
🎯 应用场景
该研究成果可广泛应用于各种边缘AI场景,例如智能监控、自动驾驶、机器人导航、工业检测等。在这些场景中,数据收集成本高昂,需要模型具备快速适应新任务的能力。通过在边缘设备上部署高效的少样本学习模型,可以实现实时推理和决策,降低对云端连接的依赖,提高系统的响应速度和可靠性。
📄 摘要(原文)
Efficient and adaptable deep learning models are an important area of deep learning research, driven by the need for highly efficient models on edge devices. Few-shot learning enables the use of deep learning models in low-data regimes, a capability that is highly sought after in real-world applications where collecting large annotated datasets is costly or impractical. This challenge is particularly relevant in edge scenarios, where connectivity may be limited, low-latency responses are required, or energy consumption constraints are critical. We propose and evaluate a pre-training method for the MobileViT backbone designed for edge computing. Specifically, we employ knowledge distillation, which transfers the generalization ability of a large-scale teacher model to a lightweight student model. This method achieves accuracy improvements of 14% and 6.7% for one-shot and five-shot classification, respectively, on the MiniImageNet benchmark, compared to the ResNet12 baseline, while reducing by 69% the number of parameters and by 88% the computational complexity of the model, in FLOPs. Furthermore, we deployed the proposed models on a Jetson Orin Nano platform and measured power consumption directly at the power supply, showing that the dynamic energy consumption is reduced by 37% with a latency of 2.6 ms. These results demonstrate that the proposed method is a promising and practical solution for deploying few-shot learning models on edge AI hardware.