Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models
作者: Kirill Vasilevski, Dayi Lin, Ahmed E. Hassan
分类: cs.LG, cs.AI, cs.MA
发布日期: 2024-11-14 (更新: 2025-06-02)
💡 一句话要点
提出实时自适应路由方法以提高基础模型的效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 实时路由 基础模型 上下文学习 请求优化 计算效率
📋 核心要点
- 现有路由模型依赖于精心策划的数据,更新复杂且未考虑较弱FM的演变。
- 本文提出实时自适应路由(RAR),通过引导的上下文学习持续优化FM路由决策。
- 实验结果显示,RAR方法在保持响应质量的同时,显著减少了对高成本模型的请求。
📝 摘要(中文)
为了平衡基础模型(FM)驱动软件的质量与推理成本,研究者通常会训练一个路由模型,将请求路由到不同规模和能力的FM。然而,现有的路由模型依赖于从精心策划的数据中学习最佳路由决策,更新过程复杂,并未考虑较弱FM的潜在演变。本文提出了实时自适应路由(RAR)方法,旨在通过引导的上下文学习持续适应FM路由决策,从而增强较弱FM的能力,减少对更强大且昂贵FM的依赖。我们在流行的MMLU基准的不同子集上评估了该方法,结果表明,RAR方法在保持约90.5%的响应质量的同时,减少了50.2%的请求路由到计算成本高的模型。
🔬 方法详解
问题定义:本文解决的问题是如何在基础模型驱动的软件中有效路由请求,以平衡质量和推理成本。现有方法依赖于静态数据,无法适应FM的动态变化,导致效率低下。
核心思路:论文提出的RAR方法通过引导的上下文学习,持续适应路由决策,增强较弱FM的能力,从而减少对强大FM的依赖。该方法旨在实现实时的路由优化,提升整体系统的效率。
技术框架:RAR方法的整体架构包括数据收集、实时路由决策、上下文学习和反馈机制等模块。通过不断更新路由模型,系统能够适应不同的请求和FM能力。
关键创新:RAR的主要创新在于其实时适应性和上下文学习的结合,使得路由决策能够动态调整,显著提高了较弱FM的响应质量和使用效率。与传统方法相比,RAR能够更好地利用资源,降低计算成本。
关键设计:在设计上,RAR采用了特定的损失函数来优化路由决策,并通过引导生成的上下文信息来提升较弱FM的性能。网络结构上,RAR集成了多层次的FM,以支持不同复杂度的任务。
📊 实验亮点
实验结果表明,RAR方法在不同MMLU基准子集上表现优异,成功将请求路由到计算成本高的模型的比例降低了50.2%,同时保持了约90.5%的响应质量,显示出显著的性能提升。
🎯 应用场景
该研究的潜在应用领域包括智能客服、在线教育和内容生成等场景,能够有效降低计算资源的消耗,同时保持高质量的响应。未来,RAR方法有望在更广泛的人工智能应用中推广,提升系统的灵活性和经济性。
📄 摘要(原文)
To balance the quality and inference cost of a Foundation Model (FM, such as large language models (LLMs)) powered software, people often opt to train a routing model that routes requests to FMs with different sizes and capabilities. Existing routing models rely on learning the optimal routing decision from carefully curated data, require complex computations to be updated, and do not consider the potential evolution of weaker FMs. In this paper, we propose Real-time Adaptive Routing (RAR), an approach to continuously adapt FM routing decisions while using guided in-context learning to enhance the capabilities of weaker FM. The goal is to reduce reliance on stronger, more expensive FMs. We evaluate our approach on different subsets of the popular MMLU benchmark. Over time, our approach routes 50.2% fewer requests to computationally expensive models while maintaining around 90.5% of the general response quality. In addition, the guides generated from stronger models have shown intra-domain generalization and led to a better quality of responses compared to an equivalent approach with a standalone weaker FM.