Reward-Based Online LLM Routing via NeuralUCB

作者: Ming-Hua Tsai, Phat Tran

分类: cs.LG, cs.CL

发布日期: 2026-03-31

💡 一句话要点

提出基于NeuralUCB的在线LLM路由方法，优化成本与奖励。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM路由 NeuralUCB 在线学习 成本优化 奖励最大化

📋 核心要点

现有LLM路由方法在效率和适应性上存在权衡，监督方法和部分反馈方法各有优劣。
论文提出基于NeuralUCB的在线路由策略，旨在优化LLM路由的成本和奖励。
实验表明，该方法在效用奖励上优于基线方法，并在降低推理成本的同时保持了竞争力。

📝 摘要（中文）

本研究探讨了使用NeuralUCB进行成本敏感的大型语言模型（LLM）路由。现有的路由方法大致可分为监督路由方法和部分反馈方法，它们在效率和适应性方面各有优缺点。我们实现了一种基于NeuralUCB的路由策略，并在模拟的在线环境下，使用RouterBench对其进行评估。实验结果表明，所提出的方法在效用奖励方面始终优于随机和最小成本基线。与最大质量参考相比，我们的方法在保持具有竞争力的奖励的同时，显著降低了推理成本。这些发现表明，NeuralUCB是一种有前景的成本敏感LLM路由方法，同时也突出了在行动区分和探索方面仍然存在的挑战。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）路由中的成本效益问题。现有方法要么依赖大量监督数据，训练成本高昂；要么适应性较差，难以应对动态变化的环境和用户需求。因此，如何在保证服务质量（奖励）的同时，降低推理成本，是一个关键挑战。

核心思路：论文的核心思路是利用NeuralUCB（Neural Upper Confidence Bound）算法，在在线学习的框架下，动态地选择合适的LLM进行推理。NeuralUCB能够平衡探索（探索不同LLM的性能）和利用（选择已知性能最佳的LLM），从而在降低成本的同时，最大化累积奖励。

技术框架：整体框架是一个在线学习循环。在每一轮中，路由策略（基于NeuralUCB）选择一个LLM来处理用户请求。然后，系统观察到该LLM的奖励（例如，输出质量）和成本（例如，推理时间）。这些信息被用于更新NeuralUCB模型，从而改进后续的路由决策。RouterBench被用作评估环境，模拟了真实的LLM路由场景。

关键创新：关键创新在于将NeuralUCB算法应用于LLM路由问题。与传统的路由方法相比，NeuralUCB能够自适应地学习不同LLM的性能，并根据当前的奖励和成本情况，动态地调整路由策略。这使得该方法能够更好地应对动态变化的环境和用户需求，从而在降低成本的同时，保持较高的服务质量。

关键设计：论文的具体实现细节未知，但NeuralUCB通常涉及以下关键设计：1) 使用神经网络来估计每个LLM的奖励函数；2) 使用UCB算法来计算每个LLM的选择置信度上界，该上界考虑了奖励的估计值和不确定性；3) 根据UCB值选择LLM，并更新神经网络。具体的损失函数和网络结构未知，但通常会使用均方误差损失函数和多层感知机。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于NeuralUCB的路由策略在RouterBench上优于随机和最小成本基线。与最大质量参考相比，该方法在保持具有竞争力的奖励的同时，显著降低了推理成本。具体的性能提升幅度未知，但论文强调了该方法在成本效益方面的优势。

🎯 应用场景

该研究成果可应用于各种需要动态选择LLM的场景，例如智能客服、内容生成、机器翻译等。通过优化LLM路由策略，可以在保证服务质量的前提下，显著降低推理成本，提高资源利用率，并为用户提供更高效、更经济的服务。未来，该方法可以进一步扩展到更复杂的LLM组合和部署场景。

📄 摘要（原文）

This study investigates the use of NeuralUCB for cost-aware large language model (LLM) routing. Existing routing approaches can be broadly grouped into supervised routing methods and partial-feedback methods, each with different tradeoffs in efficiency and adaptivity. We implement a NeuralUCB-based routing policy and evaluate it on RouterBench under a simulated online setting. Experimental results show that the proposed method consistently outperforms random and min-cost baselines in utility reward. Compared with the max-quality reference, our method achieves substantially lower inference cost while maintaining competitive reward. These findings suggest that NeuralUCB is a promising approach for cost-aware LLM routing, while also highlighting remaining challenges in action discrimination and exploration.

Reward-Based Online LLM Routing via NeuralUCB

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理