V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

作者: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini

分类: cs.LG, cs.PF

发布日期: 2025-03-21

💡 一句话要点

V-Seek：加速LLM在开源RISC-V服务器平台上的推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 RISC-V LLM推理 Sophon SG2042 向量处理

📋 核心要点

现有LLM推理主要依赖GPU，成本高昂且不够灵活，RISC-V架构的CPU有望成为更优选择。
论文针对RISC-V架构的Sophon SG2042处理器，优化LLM推理性能，充分利用其向量处理能力。
在DeepSeek R1 Distill Llama 8B和QWEN 14B模型上，推理速度提升高达2.9x/3.0x。

📝 摘要（中文）

大型语言模型（LLM）的快速发展依赖于基于GPU的系统。然而，CPU正作为一种灵活且低成本的替代方案涌现，尤其是在面向推理和推理工作负载时。RISC-V因其开放和厂商中立的ISA而在该领域迅速获得关注。然而，考虑到领域特定调整的需求，用于LLM工作负载的RISC-V硬件和相应的软件生态系统尚未完全成熟和精简。本文旨在填补这一空白，重点关注在Sophon SG2042上优化LLM推理，这是第一款具有向量处理能力且可商用的多核RISC-V CPU。

🔬 方法详解

问题定义：现有LLM推理主要依赖GPU，存在成本高、功耗大、部署不灵活等问题。RISC-V架构的CPU虽然具有开放、低成本的优势，但其硬件和软件生态系统对LLM推理的优化尚不成熟，缺乏针对性的优化方案。

核心思路：论文的核心思路是针对Sophon SG2042这款具有向量处理能力的RISC-V CPU，进行LLM推理的优化，充分利用其向量计算能力，提升推理速度。通过领域特定的调优，弥补RISC-V硬件和软件生态的不足。

技术框架：论文主要关注LLM推理的优化，没有涉及复杂的训练框架。其核心在于针对Sophon SG2042处理器的硬件特性，对LLM推理过程进行优化，包括算子优化、内存访问优化、并行计算优化等。具体的技术框架细节未知，需要参考论文正文。

关键创新：论文的关键创新在于针对RISC-V架构的CPU，特别是Sophon SG2042，探索了LLM推理的优化方法。这是首次在商用多核RISC-V CPU上实现高性能的LLM推理，为RISC-V在AI领域的应用提供了新的思路。

关键设计：论文中没有详细说明具体的参数设置、损失函数、网络结构等技术细节。优化的重点在于如何高效地利用Sophon SG2042的向量处理能力，以及如何优化内存访问和并行计算，以提升LLM推理的速度。具体的优化策略需要参考论文正文。

🖼️ 关键图片

📊 实验亮点

论文在DeepSeek R1 Distill Llama 8B和DeepSeek R1 Distill QWEN 14B两个先进的LLM模型上进行了实验，结果显示，token生成速度分别达到4.32/2.29 token/s，prompt处理速度达到6.54/3.68 token/s，相比基线系统，推理速度提升高达2.9x/3.0x。这些数据表明，通过针对RISC-V架构的优化，LLM推理性能可以显著提升。

🎯 应用场景

该研究成果可应用于对成本和功耗敏感的边缘计算场景，例如智能家居、机器人、自动驾驶等。通过在RISC-V平台上实现高效的LLM推理，可以降低AI应用的部署成本，并促进AI技术在更广泛领域的应用。未来，该研究可以进一步扩展到其他RISC-V平台，并探索更先进的LLM优化技术。

📄 摘要（原文）

The recent exponential growth of Large Language Models (LLMs) has relied on GPU-based systems. However, CPUs are emerging as a flexible and lower-cost alternative, especially when targeting inference and reasoning workloads. RISC-V is rapidly gaining traction in this area, given its open and vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the corresponding software ecosystem are not fully mature and streamlined, given the requirement of domain-specific tuning. This paper aims at filling this gap, focusing on optimizing LLM inference on the Sophon SG2042, the first commercially available many-core RISC-V CPU with vector processing capabilities. On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1 Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s for token generation and 6.54/3.68 token/s for prompt processing, with a speed up of up 2.9x/3.0x compared to our baseline.

V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理