Reward-Based Online LLM Routing via NeuralUCB

📄 arXiv: 2603.30035v1 📥 PDF

作者: Ming-Hua Tsai, Phat Tran

分类: cs.LG, cs.CL

发布日期: 2026-03-31


💡 一句话要点

提出基于NeuralUCB的在线LLM路由方法,优化成本与奖励。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM路由 NeuralUCB 在线学习 成本优化 奖励最大化

📋 核心要点

  1. 现有LLM路由方法在效率和适应性上存在权衡,监督方法和部分反馈方法各有优劣。
  2. 论文提出基于NeuralUCB的在线路由策略,旨在优化LLM路由的成本和奖励。
  3. 实验表明,该方法在效用奖励上优于基线方法,并在降低推理成本的同时保持了竞争力。

📝 摘要(中文)

本研究探讨了使用NeuralUCB进行成本敏感的大型语言模型(LLM)路由。现有的路由方法大致可分为监督路由方法和部分反馈方法,它们在效率和适应性方面各有优缺点。我们实现了一种基于NeuralUCB的路由策略,并在模拟的在线环境下,使用RouterBench对其进行评估。实验结果表明,所提出的方法在效用奖励方面始终优于随机和最小成本基线。与最大质量参考相比,我们的方法在保持具有竞争力的奖励的同时,显著降低了推理成本。这些发现表明,NeuralUCB是一种有前景的成本敏感LLM路由方法,同时也突出了在行动区分和探索方面仍然存在的挑战。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)路由中的成本效益问题。现有方法要么依赖大量监督数据,训练成本高昂;要么适应性较差,难以应对动态变化的环境和用户需求。因此,如何在保证服务质量(奖励)的同时,降低推理成本,是一个关键挑战。

核心思路:论文的核心思路是利用NeuralUCB(Neural Upper Confidence Bound)算法,在在线学习的框架下,动态地选择合适的LLM进行推理。NeuralUCB能够平衡探索(探索不同LLM的性能)和利用(选择已知性能最佳的LLM),从而在降低成本的同时,最大化累积奖励。

技术框架:整体框架是一个在线学习循环。在每一轮中,路由策略(基于NeuralUCB)选择一个LLM来处理用户请求。然后,系统观察到该LLM的奖励(例如,输出质量)和成本(例如,推理时间)。这些信息被用于更新NeuralUCB模型,从而改进后续的路由决策。RouterBench被用作评估环境,模拟了真实的LLM路由场景。

关键创新:关键创新在于将NeuralUCB算法应用于LLM路由问题。与传统的路由方法相比,NeuralUCB能够自适应地学习不同LLM的性能,并根据当前的奖励和成本情况,动态地调整路由策略。这使得该方法能够更好地应对动态变化的环境和用户需求,从而在降低成本的同时,保持较高的服务质量。

关键设计:论文的具体实现细节未知,但NeuralUCB通常涉及以下关键设计:1) 使用神经网络来估计每个LLM的奖励函数;2) 使用UCB算法来计算每个LLM的选择置信度上界,该上界考虑了奖励的估计值和不确定性;3) 根据UCB值选择LLM,并更新神经网络。具体的损失函数和网络结构未知,但通常会使用均方误差损失函数和多层感知机。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于NeuralUCB的路由策略在RouterBench上优于随机和最小成本基线。与最大质量参考相比,该方法在保持具有竞争力的奖励的同时,显著降低了推理成本。具体的性能提升幅度未知,但论文强调了该方法在成本效益方面的优势。

🎯 应用场景

该研究成果可应用于各种需要动态选择LLM的场景,例如智能客服、内容生成、机器翻译等。通过优化LLM路由策略,可以在保证服务质量的前提下,显著降低推理成本,提高资源利用率,并为用户提供更高效、更经济的服务。未来,该方法可以进一步扩展到更复杂的LLM组合和部署场景。

📄 摘要(原文)

This study investigates the use of NeuralUCB for cost-aware large language model (LLM) routing. Existing routing approaches can be broadly grouped into supervised routing methods and partial-feedback methods, each with different tradeoffs in efficiency and adaptivity. We implement a NeuralUCB-based routing policy and evaluate it on RouterBench under a simulated online setting. Experimental results show that the proposed method consistently outperforms random and min-cost baselines in utility reward. Compared with the max-quality reference, our method achieves substantially lower inference cost while maintaining competitive reward. These findings suggest that NeuralUCB is a promising approach for cost-aware LLM routing, while also highlighting remaining challenges in action discrimination and exploration.