LaMoSys3.5D: Enabling 3.5D-IC-Based Large Language Model Inference Serving Systems via Hardware/Software Co-Design
作者: Qipan Wang, Zhe Zhang, Shuangchen Li, Hongzhong Zheng, Zheng Liang, Yibo Lin, Runsheng Wang, Ru Huang
分类: eess.SY
发布日期: 2025-12-09
💡 一句话要点
提出LaMoSys3.5D以解决大语言模型推理服务的能效问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理服务 3D DRAM 硬件软件共同设计 能效优化 高性能计算 架构设计 热感知建模
📋 核心要点
- 现有方法在大语言模型推理服务中面临计算密度与带宽能力之间的平衡挑战,导致能效不足。
- 论文提出LaMoSys3.5D架构,通过硬件/软件共同设计,优化数据流、并行映射,提升推理服务效率。
- 实验结果显示,LaMoSys3.5D在吞吐量和延迟方面显著优于现有系统,提升幅度分别达到62%和4.87倍。
📝 摘要(中文)
大型语言模型(LLMs)的成功加大了对高吞吐量和能效推理的需求。基于3D DRAM的加速器提供了高内存带宽,从而加速带宽受限的解码阶段。然而,如何在预填充的计算密度与解码的带宽能力之间取得平衡仍然是一个未解决的问题。此外,大多数先前的设计并未针对端到端服务,数据流、并行映射和调度的共同设计尚未得到充分探索。为了解决这一问题,我们提出了LaMoSys3.5D,这是我们所知的首个可扩展的3.5D IC架构,用于LLM服务。LaMoSys3.5D在2.5D互连板上组合了异构的3D DRAM芯片,计算密集型芯片用于预填充,带宽能力丰富的芯片用于解码。通过硬件/软件共同设计,我们实现了高效的服务,并引入了热感知建模和分层设计空间探索框架。在多种LLM和工作负载下,LaMoSys3.5D的每瓦吞吐量比DGXA100系统提高了62%,并且在端到端延迟几何均值上比先前的3D设计提高了4.87倍。我们进一步提炼出3.5D IC架构和端到端推理服务的有趣设计指南。
🔬 方法详解
问题定义:本论文旨在解决大语言模型推理服务中计算密度与带宽能力之间的平衡问题。现有方法多未针对端到端服务进行优化,导致能效不足和性能瓶颈。
核心思路:LaMoSys3.5D架构通过将异构3D DRAM芯片与2.5D互连板结合,分别针对预填充和解码阶段的需求进行优化,从而实现高效的推理服务。
技术框架:整体架构包括计算密集型芯片和带宽能力丰富的芯片,采用硬件/软件共同设计的方法,涵盖数据流、并行映射和热感知建模等模块,形成一个完整的设计流程。
关键创新:LaMoSys3.5D是首个针对LLM服务的可扩展3.5D IC架构,显著提高了推理服务的能效和性能,填补了现有设计的空白。
关键设计:在设计中,采用了热感知建模技术,以优化芯片的热管理,同时在数据流和调度方面进行了细致的参数设置,以确保高效的资源利用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LaMoSys3.5D在吞吐量方面比DGXA100系统提高了62%,在端到端延迟几何均值上比先前的3D设计提高了4.87倍。这些显著的性能提升展示了该架构在实际应用中的巨大潜力。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的推理服务、云计算平台和高性能计算系统。通过提高推理效率和降低能耗,LaMoSys3.5D能够为AI应用提供更强大的支持,推动智能技术的广泛应用和发展。
📄 摘要(原文)
The success of large language models LLMs amplifies the need for highthroughput energyefficient inference at scale. 3DDRAMbased accelerators provide high memory bandwidth and therefore an opportunity to accelerate the bandwidthbound decode phase. However, how to adequately balance compute density for prefill with bandwidthcapacity for decode remains open. Moreover, most prior designs do not target endtoend serving, leaving the codesign of dataflow, parallel mapping, and scheduling underexplored. To bridge the gap, we present LaMoSys3.5D, to our knowledge the first scalable 3.5DIC architecture for LLM serving. LaMoSys3.5D composes heterogeneous 3DDRAM chiplets on a 2.5D interposer: computerich chiplets for prefill and bandwidthcapacityrich chiplets for decode. To realize efficient serving, we adopt a hardwaresoftware codesign spanning dataflow, parallel mapping, and introduce a thermalaware modeling and hierarchical designspace exploration framework. Across diverse LLMs and workloads, LaMoSys3.5D improves throughputperwatt over DGXA100 systems by 62 and achieves a 4.87 better endtoend latency geomean versus prior 3D designs. We further distill intriguing design guidelines for 3.5DIC architectures and endtoend inference serving.