One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection

📄 arXiv: 2509.09782v1 📥 PDF

作者: Roshini Pulishetty, Mani Kishan Ghantasala, Keerthy Kaushik Dasoju, Niti Mangwani, Vishal Garimella, Aditya Mate, Somya Chatterjee, Yue Kang, Ehi Nosakhare, Sadid Hasan, Soundar Srinivasan

分类: cs.LG

发布日期: 2025-09-11


💡 一句话要点

提出基于单头交叉注意力路由的LLM选择框架,实现成本效益优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 LLM路由 交叉注意力 成本效益 模型选择

📋 核心要点

  1. 现有LLM成本和性能各异,如何在实际应用中进行可扩展、经济高效的部署是一大挑战。
  2. 论文提出单头交叉注意力机制,联合建模查询和模型嵌入,动态选择最优LLM。
  3. 实验表明,该方法在RouterBench上实现了显著的质量和性能提升,并具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种统一的路由框架,利用单头交叉注意力机制联合建模查询和模型嵌入,从而为每个输入查询动态选择最优的大语言模型(LLM)。该方法在RouterBench上进行了评估,RouterBench是一个大规模的公开基准,包含多样化的LLM池和领域。通过显式捕获细粒度的查询-模型交互,该路由预测响应质量和生成成本,在平均质量提升(AIQ)方面比现有路由提高了6.6%,在最大性能方面提高了2.9%。为了稳健地平衡性能和成本,本文提出了一种指数奖励函数,增强了用户偏好之间的稳定性。最终的架构是轻量级的,可以有效地跨领域泛化,并且与先前的方法相比提高了效率,为成本感知的LLM路由建立了一个新的标准。

🔬 方法详解

问题定义:现有的大语言模型(LLM)在计算成本和性能方面存在差异,如何在实际应用中根据不同的查询选择合适的LLM,以实现成本效益的最大化是一个关键问题。现有的路由方法可能无法充分捕捉查询和模型之间的细粒度交互,导致选择的LLM并非最优,或者无法很好地平衡性能和成本。

核心思路:论文的核心思路是利用单头交叉注意力机制,将查询和模型嵌入联合建模,从而学习到查询和模型之间的相关性。通过这种方式,路由可以预测不同LLM对于给定查询的响应质量和生成成本,并根据用户的偏好选择最优的LLM。这种方法能够显式地捕捉查询-模型交互,从而做出更明智的决策。

技术框架:整体框架包括以下几个主要模块:1) 查询和模型嵌入模块:将输入查询和候选LLM转换为嵌入向量。2) 单头交叉注意力模块:计算查询嵌入和模型嵌入之间的注意力权重,从而捕捉查询-模型交互。3) 质量和成本预测模块:基于注意力权重,预测每个LLM对于给定查询的响应质量和生成成本。4) LLM选择模块:根据预测的质量、成本和用户的偏好,选择最优的LLM。

关键创新:最重要的技术创新点在于使用单头交叉注意力机制来建模查询和模型之间的关系。与现有方法相比,这种方法能够更有效地捕捉细粒度的查询-模型交互,从而提高路由的准确性和效率。此外,论文还提出了一种指数奖励函数,用于平衡性能和成本,增强了用户偏好之间的稳定性。

关键设计:论文的关键设计包括:1) 使用预训练的语言模型(如BERT)来生成查询和模型嵌入。2) 使用单头交叉注意力机制,以减少计算成本。3) 设计指数奖励函数,以平衡性能和成本,并允许用户根据自己的偏好调整权重。4) 在RouterBench基准上进行评估,以验证方法的有效性和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在RouterBench基准上取得了显著的性能提升。在平均质量提升(AIQ)方面,该方法比现有路由提高了6.6%,在最大性能方面提高了2.9%。此外,该方法还具有良好的泛化能力,可以在不同的领域和LLM池中有效工作。这些结果表明,该方法为成本感知的LLM路由提供了一种新的有效解决方案。

🎯 应用场景

该研究成果可应用于各种需要动态选择LLM的场景,例如智能客服、内容生成、机器翻译等。通过根据用户查询的特点和成本预算选择合适的LLM,可以显著提高服务质量和降低运营成本。未来,该方法可以进一步扩展到支持更多类型的LLM和更复杂的应用场景。

📄 摘要(原文)

The proliferation of large language models (LLMs) with varying computational costs and performance profiles presents a critical challenge for scalable, cost-effective deployment in real-world applications. We introduce a unified routing framework that leverages a single-head cross-attention mechanism to jointly model query and model embeddings, enabling dynamic selection of the optimal LLM for each input query. Our approach is evaluated on RouterBench, a large-scale, publicly available benchmark encompassing diverse LLM pools and domains. By explicitly capturing fine-grained query-model interactions, our router predicts both response quality and generation cost, achieving up to 6.6% improvement in Average Improvement in Quality (AIQ) and 2.9% in maximum performance over existing routers. To robustly balance performance and cost, we propose an exponential reward function that enhances stability across user preferences. The resulting architecture is lightweight, generalizes effectively across domains, and demonstrates improved efficiency compared to prior methods, establishing a new standard for cost-aware LLM routing.