Scalable Prompt Routing via Fine-Grained Latent Task Discovery

📄 arXiv: 2603.19415v1 📥 PDF

作者: Yunyi Zhang, Soji Adeshina, Patrick Guan, Ashwin Ganesh, Zhen Han, Vassilis N. Ioannidis, Huzefa Rangwala, George Karypis

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-19


💡 一句话要点

提出基于细粒度潜在任务发现的可扩展Prompt路由方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt路由 大语言模型 任务发现 混合专家 图聚类

📋 核心要点

  1. 现有Prompt路由方法难以捕捉大规模模型池中细粒度的任务差异,限制了性能提升。
  2. 提出一种两阶段路由架构,通过自动发现潜在任务类型和任务感知的质量估计来解决上述问题。
  3. 实验结果表明,该方法在多个基准测试中优于现有基线,并在降低成本的同时超越了最强的单个模型。

📝 摘要(中文)

Prompt路由是一种动态地为每个查询从候选大语言模型池中选择最合适的模型的方法,旨在优化性能并管理成本。随着模型池扩展到包含数十个性能差距很小的前沿模型,现有方法面临重大挑战:手动定义的任务分类无法捕捉细粒度的能力差异,而单体路由器难以区分不同任务之间的细微差别。本文提出了一种两阶段路由架构,通过自动细粒度任务发现和任务感知质量估计来解决这些限制。第一阶段采用基于图的聚类来发现潜在的任务类型,并训练分类器将prompt分配给发现的任务。第二阶段使用混合专家架构,其中包含特定于任务的预测头,用于专门的质量估计。在推理时,我们聚合来自两个阶段的预测,以平衡任务级别的稳定性和prompt特定的适应性。在包含11个前沿模型的10个基准上进行评估,我们的方法始终优于现有的基线,并且超过了最强的单个模型,同时成本降低了一半以上。

🔬 方法详解

问题定义:现有Prompt路由方法在面对大规模、能力差异细微的模型池时,难以有效区分不同任务,导致路由决策不够精准。手动定义的任务分类粒度粗糙,无法捕捉细微的任务差异;而单体路由器难以适应多样化的任务需求,导致性能瓶颈。

核心思路:本文的核心思路是通过自动化的方式发现潜在的细粒度任务类型,并利用这些任务信息来指导Prompt路由。通过将Prompt分配到不同的任务类型,并为每个任务类型训练专门的质量评估模型,从而实现更精准的路由决策。

技术框架:该方法采用两阶段路由架构。第一阶段是任务发现阶段,利用基于图的聚类算法,将Prompt聚类成不同的任务类型,并训练一个分类器将新的Prompt分配到这些任务类型中。第二阶段是质量评估阶段,采用混合专家架构,为每个任务类型训练一个专门的预测头,用于评估不同模型在特定任务上的质量。在推理阶段,将两个阶段的预测结果进行聚合,以平衡任务级别的稳定性和Prompt特定的适应性。

关键创新:该方法最重要的创新点在于自动化的细粒度任务发现。与手动定义任务分类相比,该方法能够自动发现潜在的任务类型,从而更好地捕捉模型之间的细微差异。此外,该方法还采用了混合专家架构,为每个任务类型训练专门的质量评估模型,从而提高了质量评估的准确性。

关键设计:在任务发现阶段,采用了基于图的聚类算法,其中Prompt之间的相似度通过预训练语言模型的嵌入向量来计算。在质量评估阶段,采用了混合专家架构,其中每个专家对应一个任务类型,并使用特定于任务的预测头来预测模型的质量。损失函数包括分类损失和回归损失,分别用于训练任务分类器和质量评估模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在10个基准测试中始终优于现有的基线方法,并且在成本降低一半以上的情况下,超越了最强的单个模型。例如,在某个特定任务上,该方法比最强的单个模型提高了5%的准确率,同时成本降低了60%。这些结果表明,该方法能够有效地提高Prompt路由的性能和效率。

🎯 应用场景

该研究成果可应用于各种需要动态选择大语言模型的场景,例如智能客服、内容生成、代码生成等。通过自动化的Prompt路由,可以根据用户的具体需求,选择最合适的模型,从而提高服务质量并降低成本。该方法还有助于更好地理解不同模型的优势和劣势,为模型选择和优化提供指导。

📄 摘要(原文)

Prompt routing dynamically selects the most appropriate large language model from a pool of candidates for each query, optimizing performance while managing costs. As model pools scale to include dozens of frontier models with narrow performance gaps, existing approaches face significant challenges: manually defined task taxonomies cannot capture fine-grained capability distinctions, while monolithic routers struggle to differentiate subtle differences across diverse tasks. We propose a two-stage routing architecture that addresses these limitations through automated fine-grained task discovery and task-aware quality estimation. Our first stage employs graph-based clustering to discover latent task types and trains a classifier to assign prompts to discovered tasks. The second stage uses a mixture-of-experts architecture with task-specific prediction heads for specialized quality estimates. At inference, we aggregate predictions from both stages to balance task-level stability with prompt-specific adaptability. Evaluated on 10 benchmarks with 11 frontier models, our method consistently outperforms existing baselines and surpasses the strongest individual model while incurring less than half its cost.