On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration

📄 arXiv: 2504.17376v1 📥 PDF

作者: Maoyang Xiang, Ramesh Fernando, Bo Wang

分类: cs.AR, cs.LG

发布日期: 2025-04-24


💡 一句话要点

提出基于AWQ量化与FPGA加速的Qwen2.5模型端侧高效推理框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 大型语言模型 模型压缩 硬件加速 FPGA 激活感知权重量化 Qwen2.5 异构计算

📋 核心要点

  1. 大型语言模型(LLM)在边缘设备部署面临计算需求高、内存带宽受限和能耗大等挑战。
  2. 论文提出一种基于激活感知权重量化(AWQ)和FPGA加速的Qwen2.5模型高效推理框架。
  3. 实验结果表明,该框架实现了55.08%的模型压缩率,推理速度达到5.1 tokens/秒,优于基线。

📝 摘要(中文)

本文提出了一种高效的框架,用于在Xilinx Kria KV260边缘平台上部署Qwen2.5-0.5B模型。该平台是一个集成了ARM Cortex-A53 CPU和可重构FPGA逻辑的异构系统。通过利用激活感知权重量化(AWQ)和FPGA加速的执行流水线,该方法提高了模型压缩率和系统吞吐量。此外,本文还提出了一种混合执行策略,将计算密集型操作智能地卸载到FPGA,同时利用CPU处理较轻的任务,从而有效地平衡了计算负载并最大化了整体性能。与原始模型相比,该框架实现了55.08%的模型压缩率,并以每秒5.1个token的速度生成输出,优于基线性能的每秒2.8个token。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在边缘设备上部署时面临的计算资源有限、内存带宽瓶颈以及高能耗问题。现有方法难以在资源受限的边缘设备上实现LLM的高效推理,限制了LLM在边缘计算场景的应用。

核心思路:论文的核心思路是结合模型压缩和硬件加速,具体而言,采用激活感知权重量化(AWQ)技术来压缩模型大小,并利用FPGA的并行计算能力加速推理过程。此外,还提出了一种混合执行策略,将计算密集型任务卸载到FPGA,而将较轻的任务交给CPU处理,从而实现计算负载的平衡。

技术框架:整体框架包括模型压缩阶段和推理加速阶段。在模型压缩阶段,使用AWQ对Qwen2.5-0.5B模型进行量化。在推理加速阶段,首先将量化后的模型部署到Xilinx Kria KV260边缘平台上,然后通过FPGA加速计算密集型操作,并利用CPU处理其他任务。混合执行策略协调CPU和FPGA之间的任务分配,以最大化整体性能。

关键创新:论文的关键创新在于将激活感知权重量化(AWQ)与FPGA加速相结合,并提出了一种混合执行策略。AWQ能够在保证模型性能的前提下显著降低模型大小,而FPGA加速则能够提高推理速度。混合执行策略能够充分利用CPU和FPGA的计算资源,实现最佳性能。

关键设计:论文的关键设计包括AWQ的量化参数选择、FPGA加速器的架构设计以及混合执行策略的任务分配方案。AWQ的量化参数需要仔细调整,以在模型大小和性能之间取得平衡。FPGA加速器的架构需要针对LLM的计算特点进行优化,以实现最佳的并行计算效率。混合执行策略的任务分配方案需要考虑CPU和FPGA的计算能力和通信开销,以实现最佳的负载平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架实现了55.08%的模型压缩率,推理速度达到5.1 tokens/秒,相比于基线性能的2.8 tokens/秒有显著提升。这表明该方法能够在资源受限的边缘设备上实现LLM的高效推理,具有很高的实用价值。

🎯 应用场景

该研究成果可应用于各种边缘计算场景,例如智能家居、自动驾驶、机器人等。通过在边缘设备上部署高效的LLM,可以实现本地化的自然语言处理能力,提高响应速度和数据安全性,并降低对云端服务器的依赖。未来,该技术有望推动LLM在更广泛的边缘应用中的普及。

📄 摘要(原文)

Transformer-based Large Language Models (LLMs) have significantly advanced AI capabilities but pose considerable challenges for deployment on edge devices due to high computational demands, memory bandwidth constraints, and energy consumption. This paper addresses these challenges by presenting an efficient framework for deploying the Qwen2.5-0.5B model on the Xilinx Kria KV260 edge platform, a heterogeneous system integrating an ARM Cortex-A53 CPU with reconfigurable FPGA logic. Leveraging Activation-aware Weight Quantization (AWQ) with FPGA-accelerated execution pipelines, the proposed approach enhances both model compression rate and system throughput. Additionally, we propose a hybrid execution strategy that intelligently offloads compute-intensive operations to the FPGA while utilizing the CPU for lighter tasks, effectively balancing the computational workload and maximizing overall performance. Our framework achieves a model compression rate of 55.08% compared to the original model and produces output at a rate of 5.1 tokens per second, outperforming the baseline performance of 2.8 tokens per second.