MESS+: Energy-Optimal Inferencing in Language Model Zoos with Service Level Guarantees

📄 arXiv: 2411.00889v1 📥 PDF

作者: Ryan Zhang, Herbert Woisetschläger, Shiqiang Wang, Hans Arno Jacobsen

分类: cs.LG, eess.SY

发布日期: 2024-10-31

备注: Accepted at the 2024 Workshop on Adaptive Foundation Models in conjunction with NeurIPS 2024


💡 一句话要点

提出MESS+以优化语言模型选择中的能效问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 能效优化 在线优化 服务水平协议 模型选择 随机优化 推理服务

📋 核心要点

  1. 现有方法在选择适合特定任务的语言模型时,依赖于公共基准和经验判断,导致效率低下。
  2. MESS+是一种在线随机优化算法,旨在根据每个推理请求实现能效最优的模型选择。
  3. 实验结果表明,MESS+在满足高准确度的SLA要求下,能效比随机选择提高了2.5倍。

📝 摘要(中文)

开放权重的大型语言模型(LLM)库使用户能够快速将最先进的模型集成到系统中。然而,尽管模型的可用性不断增加,选择适合特定任务的最佳模型仍然主要依赖于公共基准排行榜和经验判断。这种方法对推理服务提供商和最终用户来说都不够理想,前者通常优先考虑成本效率,而后者则更关注推理请求的模型输出质量。在商业环境中,这两者的优先级通常通过服务水平协议(SLA)结合在一起。本文提出了MESS+,一种在线随机优化算法,旨在从模型库中进行能效最优的模型选择,且基于每个推理请求进行操作。在满足高准确度的SLA要求下,使用MESS+的能效比随机选择LLM高出2.5倍,同时保持SLA质量约束。

🔬 方法详解

问题定义:本文解决的问题是如何在开放权重的语言模型库中高效选择适合特定推理请求的模型。现有方法依赖于经验判断,导致能效低下和质量不稳定。

核心思路:MESS+通过在线随机优化算法,根据每个推理请求的服务水平协议(SLA)要求,动态选择最优模型,从而提高能效和满足质量要求。

技术框架:该方法的整体架构包括模型选择模块、SLA评估模块和能效优化模块。模型选择模块负责从模型库中筛选候选模型,SLA评估模块确保所选模型满足准确度要求,能效优化模块则优化能耗。

关键创新:MESS+的主要创新在于其在线优化能力,能够根据实时推理请求动态调整模型选择策略,与传统的静态选择方法形成鲜明对比。

关键设计:在设计中,MESS+采用了特定的损失函数来平衡能效与模型输出质量,并设置了动态参数以适应不同的推理请求场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,MESS+在满足高准确度的服务水平协议要求下,能效比随机选择的模型提高了2.5倍,显示出其在实际应用中的显著优势。这一结果表明,MESS+能够有效平衡成本与质量,为推理服务提供商带来更高的经济效益。

🎯 应用场景

该研究的潜在应用领域包括云计算服务、智能助手和自动化客服等场景,能够帮助服务提供商在保证服务质量的同时,显著降低能耗,提升经济效益。未来,随着模型库的不断扩展,MESS+有望在更多实际应用中发挥重要作用。

📄 摘要(原文)

Open-weight large language model (LLM) zoos allow users to quickly integrate state-of-the-art models into systems. Despite increasing availability, selecting the most appropriate model for a given task still largely relies on public benchmark leaderboards and educated guesses. This can be unsatisfactory for both inference service providers and end users, where the providers usually prioritize cost efficiency, while the end users usually prioritize model output quality for their inference requests. In commercial settings, these two priorities are often brought together in Service Level Agreements (SLA). We present MESS+, an online stochastic optimization algorithm for energy-optimal model selection from a model zoo, which works on a per-inference-request basis. For a given SLA that requires high accuracy, we are up to 2.5x more energy efficient with MESS+ than with randomly selecting an LLM from the zoo while maintaining SLA quality constraints.