CARROT: A Cost Aware Rate Optimal Router

📄 arXiv: 2502.03261v2 📥 PDF

作者: Seamus Somerstep, Felipe Maia Polo, Allysson Flavio Melo de Oliveira, Prattyush Mangal, Mírian Silva, Onkar Bhardwaj, Mikhail Yurochkin, Subha Maity

分类: stat.ML, cs.LG, cs.NI, math.ST

发布日期: 2025-02-05 (更新: 2025-05-19)

备注: v2: Added o3-mini to CARROT and SPROUT


💡 一句话要点

提出CARROT:一种成本感知的速率最优LLM路由方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM路由 成本感知 速率优化 极小极大分析

📋 核心要点

  1. 现有LLM路由方法缺乏对成本的有效考量,难以在保证性能的同时降低推理成本。
  2. CARROT通过预测每个LLM的成本和准确性,并基于此进行路由决策,实现成本感知的速率优化。
  3. 实验表明,CARROT在SPROUT等数据集上优于其他路由器,验证了其在成本和性能之间的平衡能力。

📝 摘要(中文)

随着大型语言模型(LLM)数量的快速增长,近来人们对LLM路由产生了浓厚的兴趣,即把查询定向到能够提供合适响应的最廉价的LLM。我们对路由问题进行了极小极大分析,提供了一个下界,并发现一个简单的路由器,它可以预测每个问题的成本和准确性,并且可以达到极小极大最优。受此启发,我们引入了CARROT,一种成本感知的速率最优路由器,它基于模型成本和性能的估计来选择模型。与CARROT一起,我们还引入了智能价格感知路由(SPROUT)数据集,以促进在具有最新最先进LLM的各种查询上进行路由。使用SPROUT和先前的基准(如Routerbench和open-LLM-leaderboard-v2),我们通过实验验证了CARROT相对于几种替代路由器的性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)路由问题,即如何将查询分配给最合适的LLM,在保证响应质量的同时最小化推理成本。现有的LLM路由方法通常没有充分考虑成本因素,或者在成本和性能之间做出次优的权衡。

核心思路:论文的核心思路是设计一个成本感知的速率最优路由器。该路由器通过预测每个LLM对于特定查询的成本和准确性,然后根据这些预测选择最优的LLM。这种方法旨在在满足用户对响应质量要求的前提下,尽可能降低推理成本。

技术框架:CARROT的整体框架包含以下几个主要模块:1) 成本预测模块:用于预测每个LLM对于给定查询的推理成本。2) 准确性预测模块:用于预测每个LLM对于给定查询的响应准确性。3) 路由决策模块:基于成本和准确性的预测,选择最优的LLM进行推理。该模块的目标是最小化成本,同时满足准确性要求。

关键创新:CARROT的关键创新在于其成本感知的路由策略。与传统的仅关注准确性的路由方法不同,CARROT同时考虑了成本和准确性,从而能够在保证性能的同时降低推理成本。此外,论文还通过极小极大分析,为路由问题提供了一个理论下界,并证明了CARROT的速率最优性。

关键设计:CARROT的关键设计包括:1) 使用回归模型预测LLM的成本和准确性。这些模型可以使用历史数据进行训练。2) 使用一个效用函数来权衡成本和准确性。该效用函数可以根据用户的偏好进行调整。3) 路由决策模块使用优化算法来选择最优的LLM,例如,可以使用线性规划或动态规划。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在SPROUT数据集以及Routerbench和open-LLM-leaderboard-v2等基准测试中进行实验,验证了CARROT的有效性。实验结果表明,CARROT在保证响应质量的前提下,能够显著降低推理成本,优于其他路由器。具体的性能提升数据在论文中进行了详细展示。

🎯 应用场景

CARROT可应用于各种需要LLM服务的场景,例如智能客服、内容生成、代码生成等。通过智能地将查询路由到最合适的LLM,CARROT可以显著降低推理成本,提高服务效率,并促进LLM在资源受限环境中的部署。该研究对于推动LLM的广泛应用具有重要意义。

📄 摘要(原文)

With the rapid growth in the number of Large Language Models (LLMs), there has been a recent interest in LLM routing, or directing queries to the cheapest LLM that can deliver a suitable response. We conduct a minimax analysis of the routing problem, providing a lower bound and finding that a simple router that predicts both cost and accuracy for each question can be minimax optimal. Inspired by this, we introduce CARROT, a Cost AwaRe Rate Optimal rouTer that selects a model based on estimates of the models' cost and performance. Alongside CARROT, we also introduce the Smart Price-aware ROUTing (SPROUT) dataset to facilitate routing on a wide spectrum of queries with the latest state-of-the-art LLMs. Using SPROUT and prior benchmarks such as Routerbench and open-LLM-leaderboard-v2 we empirically validate CARROT's performance against several alternative routers.