Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization
作者: Alaa Mazouz, Sumanta Chaudhuri, Marco Cagnanzzo, Mihai Mitrea, Enzo Tartaglione, Attilio Fiandrotti
分类: cs.CV, cs.AI
发布日期: 2025-03-05 (更新: 2025-03-25)
备注: 1. Submitted to IEEE Transactions on Circuits and Systems for Video Technology in March 2025. 2. Corrected numerous mistakes from previous versions in results, citations and metrics numbers in figures
💡 一句话要点
提出一种基于知识蒸馏和混合量化的轻量级可学习图像压缩FPGA部署方案
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 可学习图像压缩 知识蒸馏 FPGA部署 硬件加速 嵌入式系统
📋 核心要点
- 现有可学习图像压缩硬件实现通常需要在率失真效率和硬件延迟之间进行权衡,且依赖于复杂的硬件设计空间探索。
- 该论文提出一种知识蒸馏框架,通过调整模型超参数,将模型适配到不同硬件平台,避免了复杂的硬件设计探索。
- 实验结果表明,该方法在FPGA上的实现优于现有FPGA实现,同时性能接近原始模型,实现了率失真效率和硬件效率的平衡。
📝 摘要(中文)
可学习图像压缩(LIC)在率失真(RD)效率方面展现出超越标准化视频编解码器的潜力,从而推动了硬件友好型实现的研究。现有LIC硬件实现大多侧重于优化延迟与RD效率之间的平衡,并通过广泛探索硬件设计空间来实现。本文提出了一种新的设计范式,将针对特定硬件平台调整设计的负担转移到模型维度调整上,同时不牺牲RD效率。首先,我们设计了一个框架,用于从参考教师模型中蒸馏出一个更精简的学生LIC模型:通过调整单个模型超参数,我们可以在不进行复杂硬件设计探索的情况下满足不同硬件平台的约束。其次,我们提出了一种硬件友好的广义除法归一化(GDN)激活函数的实现,即使在参数量化后也能保持RD效率。第三,我们设计了一种流水线FPGA配置,通过利用并行处理和优化资源分配,充分利用可用的FPGA资源。我们使用最先进的LIC模型进行的实验表明,我们的性能优于所有现有的FPGA实现,同时非常接近原始模型。
🔬 方法详解
问题定义:现有可学习图像压缩(LIC)的硬件实现,尤其是在FPGA上的部署,面临着率失真效率和硬件资源利用率之间的权衡问题。为了达到较好的率失真性能,模型通常较为复杂,导致硬件资源消耗大,延迟高。现有方法通常需要针对特定硬件平台进行大量的硬件设计空间探索,以找到最佳的折衷方案,这增加了开发成本和时间。
核心思路:该论文的核心思路是将硬件设计的复杂性转移到模型设计上。通过知识蒸馏,将一个大型、高性能的教师模型压缩成一个小型、硬件友好的学生模型。通过调整学生模型的超参数,可以使其满足特定硬件平台的资源约束,而无需进行复杂的硬件设计探索。同时,通过硬件友好的GDN实现和流水线FPGA配置,进一步优化硬件效率。
技术框架:该方法主要包含三个阶段:1) 知识蒸馏:使用教师模型训练学生模型,目标是让学生模型在保持率失真性能的同时,减小模型尺寸和计算复杂度。2) 硬件友好的GDN实现:设计一种易于在硬件上实现的GDN激活函数,并进行参数量化,以进一步降低硬件资源消耗。3) FPGA部署:设计一种流水线FPGA配置,充分利用FPGA的并行处理能力和资源,实现高效的图像压缩和解压缩。
关键创新:该论文的关键创新在于将知识蒸馏应用于可学习图像压缩的硬件部署,并提出了一种硬件友好的GDN实现。通过知识蒸馏,可以在不牺牲过多率失真性能的前提下,显著减小模型尺寸和计算复杂度,从而降低硬件资源消耗和延迟。硬件友好的GDN实现则进一步优化了硬件效率。这种方法避免了复杂的硬件设计空间探索,降低了开发成本和时间。
关键设计:在知识蒸馏阶段,通过调整学生模型的层数、通道数等超参数,控制模型的大小和复杂度。损失函数通常包括率失真损失和知识蒸馏损失,以保证学生模型在保持率失真性能的同时,学习教师模型的知识。硬件友好的GDN实现通常采用近似计算或查找表等方法,以降低计算复杂度。FPGA部署采用流水线结构,将压缩和解压缩过程分解为多个阶段,并行执行,以提高吞吐量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在FPGA上的实现优于所有现有的FPGA实现,同时性能非常接近原始模型。具体来说,该方法在保持相近率失真性能的前提下,显著降低了硬件资源消耗和延迟。与现有FPGA实现相比,该方法在资源利用率和吞吐量方面均有显著提升。这些结果表明,该方法是一种有效的可学习图像压缩硬件部署方案。
🎯 应用场景
该研究成果可应用于各种需要低功耗、低延迟图像压缩的嵌入式系统,例如移动设备、无人机、监控摄像头、物联网设备等。通过在边缘设备上实现高效的图像压缩,可以减少数据传输量,降低带宽需求,并提高系统的整体性能。此外,该方法还可以应用于视频会议、远程医疗等领域,提供更高质量的图像传输服务。
📄 摘要(原文)
Learnable Image Compression (LIC) has shown the potential to outperform standardized video codecs in RD efficiency, prompting the research for hardware-friendly implementations. Most existing LIC hardware implementations prioritize latency to RD-efficiency and through an extensive exploration of the hardware design space. We present a novel design paradigm where the burden of tuning the design for a specific hardware platform is shifted towards model dimensioning and without compromising on RD-efficiency. First, we design a framework for distilling a leaner student LIC model from a reference teacher: by tuning a single model hyperparameters, we can meet the constraints of different hardware platforms without a complex hardware design exploration. Second, we propose a hardware-friendly implementation of the Generalized Divisive Normalization - GDN activation that preserves RD efficiency even post parameter quantization. Third, we design a pipelined FPGA configuration which takes full advantage of available FPGA resources by leveraging parallel processing and optimizing resource allocation. Our experiments with a state of the art LIC model show that we outperform all existing FPGA implementations while performing very close to the original model.