Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts

作者: Jin Yang, Qiong Wu, Zhiying Feng, Zhi Zhou, Deke Guo, Xu Chen

分类: cs.NI, cs.AI, cs.DC, cs.MA

发布日期: 2025-08-01

备注: Accepted by IEEE Transactions on Mobile Computing

💡 一句话要点

提出一种QoS感知的LLM路由框架，利用DRL优化边缘计算场景下多专家LLM服务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 边缘计算 大型语言模型 服务质量 深度强化学习 路由算法 异构图注意力网络 动态状态抽象

📋 核心要点

现有LLM路由算法难以兼顾服务异构性、请求干扰和动态负载，导致QoS不稳定。
提出基于DRL的QoS感知路由框架，通过HAN进行状态抽象，并设计动作影响估计器和奖励函数。
实验表明，该算法在平均QoS和资源效率方面优于现有基线方法，提升显著。

📝 摘要（中文）

大型语言模型(LLM)的需求激增，但云端LLM服务存在高延迟、响应不稳定和隐私问题。因此，通常在网络边缘部署多个LLM以提高实时响应并保护数据隐私。针对LLM服务质量和延迟的差异，如何将用户请求路由到合适的边缘LLM专家以保证服务质量(QoS)至关重要。现有路由算法无法同时解决LLM服务的异构性、请求间的干扰以及维持长期稳定QoS所需的动态工作负载。本文提出了一种基于深度强化学习(DRL)的QoS感知LLM路由框架，用于持续提供高质量的LLM服务。利用动态状态抽象技术，通过异构图注意力网络(HAN)紧凑地表示全局状态特征。此外，引入动作影响估计器和定制的奖励函数，引导DRL智能体最大化QoS并防止延迟违规。在泊松和真实工作负载上的实验表明，该算法显著提高了平均QoS和计算资源效率。

🔬 方法详解

问题定义：论文旨在解决边缘计算环境下，如何将用户请求高效地路由到多个异构的LLM服务（专家），以保证服务质量（QoS），包括低延迟和高响应质量。现有方法的痛点在于无法同时处理LLM服务的异构性（不同LLM的性能差异）、请求之间的相互干扰（资源竞争），以及动态变化的工作负载，导致QoS不稳定，难以长期维持高性能。

核心思路：论文的核心思路是利用深度强化学习（DRL）来学习一个QoS感知的路由策略。通过DRL，智能体可以根据当前的网络状态（包括各个LLM的负载、请求队列长度等）动态地选择将请求路由到哪个LLM专家，从而最大化长期累积的QoS奖励。这种方法能够自适应地学习到最优的路由策略，从而应对LLM服务的异构性和动态变化的工作负载。

技术框架：整体框架包含以下几个主要模块：1) 状态抽象模块：使用异构图注意力网络（HAN）来表示全局状态特征，将LLM服务和请求之间的关系建模为图结构，并利用注意力机制学习节点的重要性。2) DRL智能体：基于状态抽象的结果，DRL智能体选择将请求路由到哪个LLM专家。3) 动作影响估计器：用于估计当前动作对未来QoS的影响，帮助智能体做出更明智的决策。4) 奖励函数：根据QoS指标（如延迟、响应质量）设计奖励函数，引导智能体学习最优策略。

关键创新：论文的关键创新在于：1) 动态状态抽象技术：使用HAN来紧凑地表示全局状态特征，能够有效地处理LLM服务的异构性和动态变化的工作负载。2) 动作影响估计器：通过估计当前动作对未来QoS的影响，帮助智能体做出更明智的决策，从而提高QoS。3) 定制的奖励函数：根据QoS指标设计奖励函数，引导智能体学习最优策略，从而最大化QoS并防止延迟违规。

关键设计：1) HAN网络结构：HAN包含多个元路径，用于捕捉不同类型的节点之间的关系。注意力机制用于学习不同节点的重要性。2) 奖励函数设计：奖励函数综合考虑了延迟和响应质量，并对延迟违规进行惩罚。3) DRL算法选择：论文选择了合适的DRL算法（具体算法未知），并对其参数进行了调整，以获得最佳性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该算法在泊松和真实世界工作负载下，显著提高了平均QoS和计算资源效率。与现有基线方法相比，该算法能够更有效地应对LLM服务的异构性和动态变化的工作负载，从而提供更稳定、更高质量的LLM服务。具体的性能提升数据（例如QoS提升百分比、延迟降低幅度）未知。

🎯 应用场景

该研究成果可应用于各种需要低延迟、高可靠性LLM服务的边缘计算场景，例如智能家居、自动驾驶、工业物联网等。通过优化LLM路由，可以显著提升用户体验，降低延迟，提高资源利用率，并保障数据隐私。未来，该技术有望推动边缘智能的发展，加速LLM在各行业的落地应用。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated remarkable capabilities, leading to a significant increase in user demand for LLM services. However, cloud-based LLM services often suffer from high latency, unstable responsiveness, and privacy concerns. Therefore, multiple LLMs are usually deployed at the network edge to boost real-time responsiveness and protect data privacy, particularly for many emerging smart mobile and IoT applications. Given the varying response quality and latency of LLM services, a critical issue is how to route user requests from mobile and IoT devices to an appropriate LLM service (i.e., edge LLM expert) to ensure acceptable quality-of-service (QoS). Existing routing algorithms fail to simultaneously address the heterogeneity of LLM services, the interference among requests, and the dynamic workloads necessary for maintaining long-term stable QoS. To meet these challenges, in this paper we propose a novel deep reinforcement learning (DRL)-based QoS-aware LLM routing framework for sustained high-quality LLM services. Due to the dynamic nature of the global state, we propose a dynamic state abstraction technique to compactly represent global state features with a heterogeneous graph attention network (HAN). Additionally, we introduce an action impact estimator and a tailored reward function to guide the DRL agent in maximizing QoS and preventing latency violations. Extensive experiments on both Poisson and real-world workloads demonstrate that our proposed algorithm significantly improves average QoS and computing resource efficiency compared to existing baselines.

Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理