MESS+: Dynamically Learned Inference-Time LLM Routing in Model Zoos with Service Level Guarantees
作者: Herbert Woisetschläger, Ryan Zhang, Shiqiang Wang, Hans-Arno Jacobsen
分类: cs.LG, cs.AI, eess.SY
发布日期: 2025-05-26 (更新: 2025-10-23)
备注: NeurIPS 2025. Code: https://github.com/laminair/mess-plus
💡 一句话要点
提出MESS+以优化LLM请求路由并确保服务质量
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 请求路由 服务水平协议 随机优化 用户满意度
📋 核心要点
- 现有的LLM路由方法在选择适合特定任务的模型时缺乏灵活性,且难以满足用户的服务质量需求。
- MESS+通过实时学习LLM的请求满意度概率,动态优化模型选择,以实现成本效益最大化。
- 在多项LLM基准测试中,MESS+实现了平均$2 imes$的成本节约,显著提升了服务效率。
📝 摘要(中文)
开放权重的大型语言模型(LLM)库提供了多种高质量模型的访问,但选择适合特定任务的模型仍然具有挑战性,且需要技术专业知识。大多数用户希望获得事实正确、安全且令人满意的响应,而推理服务提供商则优先考虑降低运营成本。这些相互竞争的利益通常通过服务水平协议(SLA)进行调解,以保证最低服务质量。我们提出了MESS+,一种随机优化算法,用于在提供严格SLA合规保证的同时实现成本最优的LLM请求路由。MESS+在用户与系统交互时实时学习LLM的请求满意度概率,并基于此通过解决每个请求的优化问题来做出模型选择决策。我们的算法结合了虚拟队列和请求满意度预测的新颖组合,并进行了成本最优性和约束满足的理论分析。在一系列最先进的LLM基准测试中,MESS+相比现有的LLM路由技术实现了平均$2 imes$的成本节约。
🔬 方法详解
问题定义:本论文旨在解决在开放权重LLM库中,如何高效选择适合特定任务的模型,同时确保满足服务水平协议(SLA)的要求。现有方法往往无法兼顾用户的满意度和服务提供商的成本控制,导致资源浪费和用户体验不佳。
核心思路:MESS+的核心思路是通过实时学习LLM的请求满意度概率,动态调整模型选择策略。该方法通过解决每个请求的优化问题,确保在满足SLA的前提下实现成本最优。
技术框架:MESS+的整体架构包括虚拟队列管理、请求满意度预测和优化决策模块。用户请求首先进入虚拟队列,系统根据历史数据预测满意度,然后通过优化算法选择最佳模型进行处理。
关键创新:MESS+的主要创新在于将虚拟队列与请求满意度预测相结合,形成了一种新的动态路由机制。这种机制能够实时适应用户需求变化,与传统静态路由方法相比,具有更高的灵活性和效率。
关键设计:在设计中,MESS+采用了基于历史交互数据的满意度预测模型,并通过随机优化算法进行模型选择。损失函数的设计考虑了成本与满意度之间的权衡,确保在满足SLA的同时实现成本最优。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
在实验中,MESS+在多项LLM基准测试中实现了平均$2 imes$的成本节约,相较于现有的LLM路由技术,表现出显著的性能提升。这一结果表明,MESS+在动态请求路由和服务质量保障方面具有显著优势。
🎯 应用场景
该研究的潜在应用领域包括智能客服、在线教育和内容生成等场景。通过优化LLM请求路由,MESS+能够显著提升用户体验,降低运营成本,具有广泛的实际价值和未来影响力。随着LLM技术的不断发展,类似的优化策略将成为提升服务质量的重要手段。
📄 摘要(原文)
Open-weight large language model (LLM) zoos provide access to numerous high-quality models, but selecting the appropriate model for specific tasks remains challenging and requires technical expertise. Most users simply want factually correct, safe, and satisfying responses without concerning themselves with model technicalities, while inference service providers prioritize minimizing operating costs. These competing interests are typically mediated through service level agreements (SLAs) that guarantee minimum service quality. We introduce MESS+, a stochastic optimization algorithm for cost-optimal LLM request routing while providing rigorous SLA compliance guarantees. MESS+ learns request satisfaction probabilities of LLMs in real-time as users interact with the system, based on which model selection decisions are made by solving a per-request optimization problem. Our algorithm includes a novel combination of virtual queues and request satisfaction prediction, along with a theoretical analysis of cost optimality and constraint satisfaction. Across a wide range of state-of-the-art LLM benchmarks, MESS+ achieves an average of $2\times$ cost savings compared to existing LLM routing techniques.