V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

📄 arXiv: 2503.17422v1 📥 PDF

作者: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini

分类: cs.LG, cs.PF

发布日期: 2025-03-21


💡 一句话要点

V-Seek:加速LLM在开源RISC-V服务器平台上的推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 RISC-V LLM推理 Sophon SG2042 向量处理

📋 核心要点

  1. 现有LLM推理主要依赖GPU,成本高昂且不够灵活,RISC-V架构的CPU有望成为更优选择。
  2. 论文针对RISC-V架构的Sophon SG2042处理器,优化LLM推理性能,充分利用其向量处理能力。
  3. 在DeepSeek R1 Distill Llama 8B和QWEN 14B模型上,推理速度提升高达2.9x/3.0x。

📝 摘要(中文)

大型语言模型(LLM)的快速发展依赖于基于GPU的系统。然而,CPU正作为一种灵活且低成本的替代方案涌现,尤其是在面向推理和推理工作负载时。RISC-V因其开放和厂商中立的ISA而在该领域迅速获得关注。然而,考虑到领域特定调整的需求,用于LLM工作负载的RISC-V硬件和相应的软件生态系统尚未完全成熟和精简。本文旨在填补这一空白,重点关注在Sophon SG2042上优化LLM推理,这是第一款具有向量处理能力且可商用的多核RISC-V CPU。

🔬 方法详解

问题定义:现有LLM推理主要依赖GPU,存在成本高、功耗大、部署不灵活等问题。RISC-V架构的CPU虽然具有开放、低成本的优势,但其硬件和软件生态系统对LLM推理的优化尚不成熟,缺乏针对性的优化方案。

核心思路:论文的核心思路是针对Sophon SG2042这款具有向量处理能力的RISC-V CPU,进行LLM推理的优化,充分利用其向量计算能力,提升推理速度。通过领域特定的调优,弥补RISC-V硬件和软件生态的不足。

技术框架:论文主要关注LLM推理的优化,没有涉及复杂的训练框架。其核心在于针对Sophon SG2042处理器的硬件特性,对LLM推理过程进行优化,包括算子优化、内存访问优化、并行计算优化等。具体的技术框架细节未知,需要参考论文正文。

关键创新:论文的关键创新在于针对RISC-V架构的CPU,特别是Sophon SG2042,探索了LLM推理的优化方法。这是首次在商用多核RISC-V CPU上实现高性能的LLM推理,为RISC-V在AI领域的应用提供了新的思路。

关键设计:论文中没有详细说明具体的参数设置、损失函数、网络结构等技术细节。优化的重点在于如何高效地利用Sophon SG2042的向量处理能力,以及如何优化内存访问和并行计算,以提升LLM推理的速度。具体的优化策略需要参考论文正文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在DeepSeek R1 Distill Llama 8B和DeepSeek R1 Distill QWEN 14B两个先进的LLM模型上进行了实验,结果显示,token生成速度分别达到4.32/2.29 token/s,prompt处理速度达到6.54/3.68 token/s,相比基线系统,推理速度提升高达2.9x/3.0x。这些数据表明,通过针对RISC-V架构的优化,LLM推理性能可以显著提升。

🎯 应用场景

该研究成果可应用于对成本和功耗敏感的边缘计算场景,例如智能家居、机器人、自动驾驶等。通过在RISC-V平台上实现高效的LLM推理,可以降低AI应用的部署成本,并促进AI技术在更广泛领域的应用。未来,该研究可以进一步扩展到其他RISC-V平台,并探索更先进的LLM优化技术。

📄 摘要(原文)

The recent exponential growth of Large Language Models (LLMs) has relied on GPU-based systems. However, CPUs are emerging as a flexible and lower-cost alternative, especially when targeting inference and reasoning workloads. RISC-V is rapidly gaining traction in this area, given its open and vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the corresponding software ecosystem are not fully mature and streamlined, given the requirement of domain-specific tuning. This paper aims at filling this gap, focusing on optimizing LLM inference on the Sophon SG2042, the first commercially available many-core RISC-V CPU with vector processing capabilities. On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1 Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s for token generation and 6.54/3.68 token/s for prompt processing, with a speed up of up 2.9x/3.0x compared to our baseline.