OrcaRouter: A Production-Oriented LLM Router with Hybrid Offline-Online Learning

📄 arXiv: 2605.30736v1 📥 PDF

作者: Zhenghua Bao, Fengya Tian, Chris Zhang, Zhenjun Chen, Xile Ma, Yi Shi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-29

备注: 6 pages, 1 table. Technical report


💡 一句话要点

OrcaRouter:一种面向生产环境的混合离线-在线学习LLM路由方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型路由 上下文Bandit算法 离线-在线学习 模型选择 生产环境部署

📋 核心要点

  1. 现有大语言模型能力各异,成本不同,如何根据请求选择最优模型是实际部署的挑战。
  2. OrcaRouter采用LinUCB上下文bandit算法,结合离线全信息学习和在线bandit反馈学习。
  3. 实验表明,OrcaRouter在RouterArena排行榜上名列前茅,实现了高准确率和低成本。

📝 摘要(中文)

本文提出了一种面向生产环境的大语言模型(LLM)路由器OrcaRouter。考虑到不同LLM的能力和推理成本各异,OrcaRouter旨在解决如何为每个传入请求选择最佳模型的问题。该路由器结合了基于LinUCB上下文bandit算法,利用词汇和句子嵌入特征,以及混合离线-在线学习协议。离线阶段,OrcaRouter通过在精选的路由提示集上评估每个候选模型来获得完整信息反馈,从而得到一个奖励矩阵,并为每个臂(模型)拟合一个岭回归器。在部署时,它从这些参数初始化,并可以选择性地继续从bandit反馈中学习,仅在观察到奖励后更新所选模型的臂。在RouterArena提交时(2026年5月20日),OrcaRouter-Adaptive在公共RouterArena排行榜上排名第二,竞技场得分为72.08,以每1000次查询1.00美元的成本实现了75.54%的准确率。

🔬 方法详解

问题定义:论文旨在解决在生产环境中,如何根据用户请求动态选择最优的大语言模型(LLM)进行推理的问题。现有方法可能无法充分利用不同LLM的优势,或者无法根据实际请求的特点进行自适应选择,导致成本高昂或性能不佳。

核心思路:OrcaRouter的核心思路是利用上下文bandit算法,根据请求的特征(词汇和句子嵌入)动态选择LLM。通过离线学习获得初步的模型选择策略,然后在在线部署过程中,根据实际的奖励反馈不断优化选择策略,从而实现性能和成本的平衡。

技术框架:OrcaRouter的整体框架包含离线学习和在线学习两个阶段。离线阶段,首先构建一个包含各种路由提示的精选数据集,然后使用每个候选LLM对这些提示进行评估,得到一个奖励矩阵。基于该奖励矩阵,为每个LLM训练一个岭回归器。在线阶段,OrcaRouter使用LinUCB算法,根据请求的特征和离线学习得到的模型参数,选择一个LLM进行推理。然后,根据实际的奖励反馈,更新所选LLM的岭回归器参数。

关键创新:OrcaRouter的关键创新在于混合离线-在线学习协议。离线学习利用全信息反馈,快速初始化模型选择策略;在线学习利用bandit反馈,持续优化模型选择策略,从而适应不断变化的用户请求和LLM性能。这种混合方法能够有效地平衡探索和利用,提高模型选择的准确性和效率。

关键设计:OrcaRouter的关键设计包括:1) 使用LinUCB算法进行模型选择,该算法能够有效地平衡探索和利用;2) 使用岭回归器对每个LLM的奖励进行建模,该模型简单高效;3) 使用词汇和句子嵌入作为请求的特征,这些特征能够有效地捕捉请求的语义信息;4) 混合离线-在线学习协议,充分利用离线数据和在线反馈。

📊 实验亮点

OrcaRouter在RouterArena排行榜上取得了显著的成绩,排名第二,竞技场得分为72.08。它以每1000次查询1.00美元的成本实现了75.54%的准确率。实验结果表明,OrcaRouter能够有效地平衡性能和成本,为LLM的实际部署提供了一种有效的解决方案。

🎯 应用场景

OrcaRouter可应用于各种需要动态选择LLM的场景,例如智能客服、内容生成、代码生成等。通过根据用户请求的特点选择最优的LLM,可以提高服务质量、降低运营成本,并提升用户体验。该研究对于推动LLM在实际生产环境中的应用具有重要意义。

📄 摘要(原文)

The rapid development of large language models, each with distinct capabilities and inference costs, raises a practical deployment question: given an incoming request, which model should handle it? We present OrcaRouter, a production-oriented LLM router that combines a LinUCB-based contextual bandit over lexical and sentence-embedding features with a hybrid offline-online learning protocol. Offline, OrcaRouter obtains full-information feedback by evaluating each candidate model on a curated set of routing prompts, yielding a reward matrix used to fit one ridge regressor per arm. At deployment time, it initializes from these parameters and can optionally continue learning from bandit feedback, updating only the selected model's arm after observing its reward. At the time of our RouterArena submission (May 20, 2026), OrcaRouter-Adaptive ranked second on the public RouterArena leaderboard with an arena score of 72.08, achieving 75.54% accuracy at a cost of USD 1.00 per 1,000 queries.