IR3DE: A Linear Router for Large Language Models
作者: Eros Fanì, Oğuzhan Ersoy
分类: cs.CL, cs.LG
发布日期: 2026-06-04
备注: Accepted at the ICML 2026 Workshop on Resource-Adaptive Foundation Model Inference
💡 一句话要点
提出IR3DE以解决大型语言模型的高效路由问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理路由 岭回归 动态管理 自然语言处理
📋 核心要点
- 现有的路由方法在选择合适的LLM时存在成本优化不足或训练需求高的问题。
- IR3DE通过岭回归实现快速且低成本的路由决策,支持动态领域专家的添加与删除。
- 实验结果显示,IR3DE在推理任务中性能超越其他基线,达到98.4%的标准化性能。
📝 摘要(中文)
基础大型语言模型(LLMs)在多种通用任务上表现出色,并通过领域专家LLMs在各种专业任务上取得了显著成果。随着可用LLMs数量的不断增加,推理路由器被提出以选择最合适的LLM来处理每个提示。然而,现有的路由方法要么在弱到强的通用LLMs之间优化成本,要么需要大量训练以支持领域专家路由。本文提出了IR3DE,一种基于岭回归的领域专家路由器,为每个提示提供廉价且快速的路由决策。我们在两个因果语言建模设置中评估IR3DE,尽管它是一个线性路由器,但在这两个设置中的性能与其他基线相当,并在推理设置中超越了它们,达到了98.4%的标准化性能。此外,IR3DE允许在不需要从头开始重新训练路由器的情况下添加或删除新的领域专家,从而使动态LLMs集的服务对路由器本身的干扰最小化。
🔬 方法详解
问题定义:本文旨在解决在多种大型语言模型中选择最合适模型的高效路由问题。现有方法在成本优化和训练需求上存在不足,导致在实际应用中难以快速响应。
核心思路:IR3DE采用岭回归算法,能够在保持高效性的同时,快速做出路由决策。其设计理念是通过简单的线性模型来实现对领域专家的动态管理,避免了复杂的训练过程。
技术框架:IR3DE的整体架构包括输入提示的接收、特征提取、岭回归模型的应用以及最终的模型选择。主要模块包括数据预处理、模型训练和推理阶段。
关键创新:IR3DE的主要创新在于其线性路由器的设计,能够在不需要重新训练的情况下,灵活地添加或删除领域专家。这一特性显著提高了系统的灵活性和适应性。
关键设计:IR3DE的关键设计包括岭回归的参数设置、损失函数的选择以及特征的提取方式。通过合理的参数调优,IR3DE在推理任务中实现了与其他复杂模型相当的性能。
🖼️ 关键图片
📊 实验亮点
IR3DE在两个因果语言建模设置中表现出色,尤其是在推理任务中,其标准化性能达到了98.4%,超越了所有基线模型。这一结果表明,IR3DE不仅在效率上具有优势,同时在准确性上也能与复杂模型相媲美。
🎯 应用场景
IR3DE的研究成果在多个领域具有广泛的应用潜力,尤其是在需要快速响应和动态调整的自然语言处理任务中。其高效的路由机制可以帮助企业和研究机构在多种LLM中快速选择最优解,从而提升工作效率和决策质量。未来,IR3DE可能会在智能客服、内容生成和个性化推荐等领域发挥重要作用。
📄 摘要(原文)
Foundational Large Language Models (LLMs) demonstrate proficiency on a wide range of general tasks, and achieve remarkable results on various specialized tasks via domain-expert LLMs. With the ever-growing list of available LLMs, inference routers are being proposed to select the most appropriate LLM for each prompt. However, existing routing methods either optimize cost across weak-to-strong generalist LLMs or require substantial training to support domain-expertise routing. In this paper, we propose IR3DE, a Ridge Regression-based Router for Domain Experts that provides cheap and fast routing decisions for each prompt. We evaluate IR3DE in two Causal Language Modeling (CLM) settings where the tasks are next-token prediction for all domains, and one reasoning setting where each domain has its own distinct reasoning task. Despite being a linear router, IR3DE achieves performance comparable to the other baselines in both CLM settings, and surpassing them in the reasoning setting, with a normalized performance of 98.4%. Moreover, IR3DE enables the addition or removal of new domain experts without requiring the router to be retrained from scratch, allowing a dynamic set of LLMs to be served with minimal disruption to the router itself. Our code is available at: github.com/gensyn-ai/IR3DE.