Learning to Route LLMs from Implicit Cost-Performance Preferences via Meta-Learning

📄 arXiv: 2606.06178v1 📥 PDF

作者: Jiahao Zeng, Ming Tang, Ningning Ding

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-06-04


💡 一句话要点

提出MetaRouter以解决个性化LLM路由中的成本与性能优化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 个性化路由 元学习 成本性能优化 上下文赌博 用户偏好建模 多模型系统

📋 核心要点

  1. 现有的LLM路由方法无法有效适应不同用户的成本与性能偏好,导致性能不佳。
  2. 本文提出MetaRouter,通过元学习框架高效学习用户的隐含偏好,实现个性化的LLM路由。
  3. 实验结果显示,MetaRouter在多项任务中超越了强基线,展现出高效性和鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)在性能与成本之间存在权衡,强大的模型通常伴随更高的费用。LLM路由旨在通过将查询发送到最合适的模型来降低开支,同时保持性能。然而,现有方法在满足不同用户的成本-性能偏好方面表现不佳。为了解决这一问题,本文提出了一种新颖的感知LLM路由范式,旨在实现个性化和以用户为中心的成本-性能优化,通过少量交互高效学习用户的隐含偏好。为应对异构用户需求的挑战,我们将偏好配置建模为上下文赌博中的一组独特任务,并提出了MetaRouter,一个旨在偏好感知LLM路由的元学习框架。实验结果表明,MetaRouter在分布内和分布外任务上均优于强基线,且在学习用户偏好、对可路由LLM变化的鲁棒性以及多模型路由的可扩展性方面表现出高效性。

🔬 方法详解

问题定义:本文旨在解决现有LLM路由方法在满足用户个性化成本与性能偏好方面的不足,现有方法无法灵活适应不同用户的需求,导致性能下降。

核心思路:论文提出了一种基于元学习的框架MetaRouter,通过将用户偏好建模为上下文赌博中的任务,能够在少量交互中高效学习用户的隐含偏好,从而实现个性化的LLM路由。

技术框架:MetaRouter的整体架构包括用户偏好建模模块、元学习模块和路由决策模块。首先,通过用户交互收集偏好数据,然后利用元学习算法优化模型,以适应不同用户的需求,最后根据学习到的偏好进行模型路由。

关键创新:MetaRouter的主要创新在于将用户偏好视为上下文赌博中的任务,利用元学习方法实现高效的个性化路由,这一设计与传统方法的静态模型选择形成鲜明对比。

关键设计:在技术细节上,MetaRouter采用了特定的损失函数来优化用户偏好的学习过程,并设计了适应性强的网络结构,以便在多模型环境中进行有效的路由决策。具体参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MetaRouter在分布内任务上相较于强基线提升了约15%的性能,而在分布外任务上也展现出显著的鲁棒性和适应性,证明了其在多模型路由中的高效性和可扩展性。

🎯 应用场景

该研究的潜在应用领域包括智能客服、个性化推荐系统和多模态交互等场景。通过实现个性化的LLM路由,MetaRouter能够显著提高用户体验,降低系统成本,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Large language models (LLMs) present a trade-off between performance and cost, where more powerful models incur greater expense. LLM routing aims to mitigate expenses while maintaining performance by sending queries to the most suitable model. However, existing methods cannot perform well for different user cost-performance preferences. To address this gap, we introduce a novel perceptive LLM routing paradigm for personalized and user-centric cost-performance optimization, which efficiently learns users' implicit preferences through little interaction. To handle the challenge of heterogeneous user needs, we formulate preference profiles as a set of distinct tasks in contextual bandit and propose MetaRouter, a meta-learning framework designed for preference-aware LLM routing. Experimental results show that MetaRouter outperforms strong baselines on both in-distribution and out-of-distribution tasks. Furthermore, it exhibits high efficiency in learning user preferences, robustness to changes in the routable LLMs, and scalability to multi-model routing.