A Unified Approach to Routing and Cascading for LLMs

作者: Jasper Dekoninck, Maximilian Baader, Martin Vechev

分类: cs.CL

发布日期: 2024-10-14 (更新: 2025-05-22)

💡 一句话要点

提出统一的级联路由框架，优化LLM的成本-性能权衡

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型选择 路由 级联 成本优化 性能优化 质量估计 代理系统

📋 核心要点

现有LLM路由和级联策略缺乏最优性证明，且未能充分挖掘其提升成本-性能权衡的潜力。
论文提出级联路由框架，将路由和级联策略统一到一个理论最优的策略中，实现更优的成本-性能权衡。
实验表明，级联路由显著优于单独的路由或级联方法，并分析了质量估计器对模型选择的影响。

📝 摘要（中文）

本文研究了如何通过模型选择策略来提升大型语言模型（LLM）在各种代理系统中的成本-性能权衡。现有策略包括路由（为每个查询选择单个模型）和级联（顺序运行越来越大的模型，直到找到满意的答案）。然而，现有方法存在三个主要限制：缺乏最优性证明，未能识别这些策略最有效的条件，以及无法结合这两种范式以进一步改进。为了解决这些问题，我们首先推导出一个新的最优级联策略，并证明了现有路由策略的最优性。此外，我们提出了级联路由，一个统一的框架，将路由和级联集成到一个理论上最优的策略中。通过我们的分析，我们确定高质量的估计器是模型选择范式成功的关键因素。最后，在我们的实验中，我们表明级联路由始终以很大的优势优于单独的方法，并且我们分析了质量估计器，以确定何时路由和/或级联是模型选择的有用范例。

🔬 方法详解

问题定义：现有的大型语言模型选择策略，如路由和级联，旨在优化成本和性能之间的权衡。路由策略为每个查询选择一个模型，而级联策略则按顺序运行规模递增的模型，直到找到令人满意的答案。然而，这些方法缺乏理论上的最优性证明，未能明确在何种条件下能够最有效地提升成本-性能，并且无法将路由和级联两种策略结合起来。

核心思路：论文的核心思路是将路由和级联两种策略统一到一个框架中，称为级联路由。通过理论分析，推导出最优的级联策略，并证明现有路由策略的最优性。该框架的关键在于利用高质量的估计器来预测不同模型的输出质量，从而指导路由和级联过程，实现成本和性能的最佳平衡。

技术框架：级联路由框架包含以下几个主要阶段：1) 质量估计：使用质量估计器预测不同LLM对给定输入的输出质量。2) 路由决策：基于质量估计，决定是否直接选择一个模型进行推理（路由），或者启动级联过程。3) 级联执行：如果选择级联，则按顺序运行规模递增的模型，直到满足预定义的质量阈值。4) 结果输出：选择满足质量要求的模型输出作为最终结果。

关键创新：该论文最重要的技术创新点在于提出了级联路由这一统一框架，它将路由和级联两种策略结合起来，克服了各自的局限性。与现有方法相比，级联路由具有理论上的最优性保证，并且能够根据质量估计动态地选择最佳的模型选择策略。此外，论文还强调了高质量估计器在模型选择中的重要作用。

关键设计：论文的关键设计包括：1) 最优级联策略的推导，基于马尔可夫决策过程，寻找在给定成本约束下最大化预期回报的策略。2) 质量估计器的选择和训练，可以使用各种回归模型或基于LLM的评估器。3) 路由决策的制定，可以基于质量估计的置信区间或预定义的阈值。4) 级联过程的停止条件，可以基于输出质量达到预设阈值或达到最大模型数量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，级联路由在各种任务上始终优于单独的路由或级联方法。具体而言，在某些任务上，级联路由可以将成本降低高达30%，同时保持或提高性能。此外，实验还验证了高质量估计器对模型选择的重要性，表明使用更准确的质量估计器可以进一步提升级联路由的性能。

🎯 应用场景

该研究成果可广泛应用于各种需要平衡成本和性能的LLM应用场景，例如智能客服、内容生成、代码生成等。通过自适应地选择合适的模型或模型组合，可以在保证服务质量的前提下，显著降低计算成本，提高资源利用率。未来，该方法有望进一步扩展到多模态模型选择和更复杂的代理系统中。

📄 摘要（原文）

The availability of a wide range of large language models (LLMs) embedded in various agentic systems has significantly increased the potential of model selection strategies to improve the cost-performance tradeoff. Existing strategies involve either routing, where a single model is chosen per query, or cascading, which sequentially runs increasingly larger models until a satisfactory answer is found. However, current approaches face three key limitations: they (1) lack formal proofs of optimality, (2) fail to identify the conditions under which these strategies are most effective to improve the cost-performance tradeoff, and (3) are unable to combine both paradigms for further improvements. To address these issues, we first derive a novel optimal strategy for cascading and prove the optimality of an existing routing strategy. Further, we propose cascade routing, a unified framework that integrates routing and cascading into a theoretically optimal strategy. Through our analysis, we identify good quality estimators as the critical factor for the success of model selection paradigms. Finally, in our experiments, we show that cascade routing consistently outperforms the individual approaches by a large margin and we analyze quality estimators to determine when routing and/or cascading are useful paradigms for model selection.

A Unified Approach to Routing and Cascading for LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理