Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts
作者: Jin Yang, Qiong Wu, Zhiying Feng, Zhi Zhou, Deke Guo, Xu Chen
分类: cs.NI, cs.AI, cs.DC, cs.MA
发布日期: 2025-08-01
备注: Accepted by IEEE Transactions on Mobile Computing
💡 一句话要点
提出一种QoS感知的LLM路由框架,利用DRL优化边缘计算场景下多专家LLM服务。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 大型语言模型 服务质量 深度强化学习 路由算法 异构图注意力网络 动态状态抽象
📋 核心要点
- 现有LLM路由算法难以兼顾服务异构性、请求干扰和动态负载,导致QoS不稳定。
- 提出基于DRL的QoS感知路由框架,通过HAN进行状态抽象,并设计动作影响估计器和奖励函数。
- 实验表明,该算法在平均QoS和资源效率方面优于现有基线方法,提升显著。
📝 摘要(中文)
大型语言模型(LLM)的需求激增,但云端LLM服务存在高延迟、响应不稳定和隐私问题。因此,通常在网络边缘部署多个LLM以提高实时响应并保护数据隐私。针对LLM服务质量和延迟的差异,如何将用户请求路由到合适的边缘LLM专家以保证服务质量(QoS)至关重要。现有路由算法无法同时解决LLM服务的异构性、请求间的干扰以及维持长期稳定QoS所需的动态工作负载。本文提出了一种基于深度强化学习(DRL)的QoS感知LLM路由框架,用于持续提供高质量的LLM服务。利用动态状态抽象技术,通过异构图注意力网络(HAN)紧凑地表示全局状态特征。此外,引入动作影响估计器和定制的奖励函数,引导DRL智能体最大化QoS并防止延迟违规。在泊松和真实工作负载上的实验表明,该算法显著提高了平均QoS和计算资源效率。
🔬 方法详解
问题定义:论文旨在解决边缘计算环境下,如何将用户请求高效地路由到多个异构的LLM服务(专家),以保证服务质量(QoS),包括低延迟和高响应质量。现有方法的痛点在于无法同时处理LLM服务的异构性(不同LLM的性能差异)、请求之间的相互干扰(资源竞争),以及动态变化的工作负载,导致QoS不稳定,难以长期维持高性能。
核心思路:论文的核心思路是利用深度强化学习(DRL)来学习一个QoS感知的路由策略。通过DRL,智能体可以根据当前的网络状态(包括各个LLM的负载、请求队列长度等)动态地选择将请求路由到哪个LLM专家,从而最大化长期累积的QoS奖励。这种方法能够自适应地学习到最优的路由策略,从而应对LLM服务的异构性和动态变化的工作负载。
技术框架:整体框架包含以下几个主要模块:1) 状态抽象模块:使用异构图注意力网络(HAN)来表示全局状态特征,将LLM服务和请求之间的关系建模为图结构,并利用注意力机制学习节点的重要性。2) DRL智能体:基于状态抽象的结果,DRL智能体选择将请求路由到哪个LLM专家。3) 动作影响估计器:用于估计当前动作对未来QoS的影响,帮助智能体做出更明智的决策。4) 奖励函数:根据QoS指标(如延迟、响应质量)设计奖励函数,引导智能体学习最优策略。
关键创新:论文的关键创新在于:1) 动态状态抽象技术:使用HAN来紧凑地表示全局状态特征,能够有效地处理LLM服务的异构性和动态变化的工作负载。2) 动作影响估计器:通过估计当前动作对未来QoS的影响,帮助智能体做出更明智的决策,从而提高QoS。3) 定制的奖励函数:根据QoS指标设计奖励函数,引导智能体学习最优策略,从而最大化QoS并防止延迟违规。
关键设计:1) HAN网络结构:HAN包含多个元路径,用于捕捉不同类型的节点之间的关系。注意力机制用于学习不同节点的重要性。2) 奖励函数设计:奖励函数综合考虑了延迟和响应质量,并对延迟违规进行惩罚。3) DRL算法选择:论文选择了合适的DRL算法(具体算法未知),并对其参数进行了调整,以获得最佳性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该算法在泊松和真实世界工作负载下,显著提高了平均QoS和计算资源效率。与现有基线方法相比,该算法能够更有效地应对LLM服务的异构性和动态变化的工作负载,从而提供更稳定、更高质量的LLM服务。具体的性能提升数据(例如QoS提升百分比、延迟降低幅度)未知。
🎯 应用场景
该研究成果可应用于各种需要低延迟、高可靠性LLM服务的边缘计算场景,例如智能家居、自动驾驶、工业物联网等。通过优化LLM路由,可以显著提升用户体验,降低延迟,提高资源利用率,并保障数据隐私。未来,该技术有望推动边缘智能的发展,加速LLM在各行业的落地应用。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated remarkable capabilities, leading to a significant increase in user demand for LLM services. However, cloud-based LLM services often suffer from high latency, unstable responsiveness, and privacy concerns. Therefore, multiple LLMs are usually deployed at the network edge to boost real-time responsiveness and protect data privacy, particularly for many emerging smart mobile and IoT applications. Given the varying response quality and latency of LLM services, a critical issue is how to route user requests from mobile and IoT devices to an appropriate LLM service (i.e., edge LLM expert) to ensure acceptable quality-of-service (QoS). Existing routing algorithms fail to simultaneously address the heterogeneity of LLM services, the interference among requests, and the dynamic workloads necessary for maintaining long-term stable QoS. To meet these challenges, in this paper we propose a novel deep reinforcement learning (DRL)-based QoS-aware LLM routing framework for sustained high-quality LLM services. Due to the dynamic nature of the global state, we propose a dynamic state abstraction technique to compactly represent global state features with a heterogeneous graph attention network (HAN). Additionally, we introduce an action impact estimator and a tailored reward function to guide the DRL agent in maximizing QoS and preventing latency violations. Extensive experiments on both Poisson and real-world workloads demonstrate that our proposed algorithm significantly improves average QoS and computing resource efficiency compared to existing baselines.