Smoothie: Label Free Language Model Routing
作者: Neel Guha, Mayee F. Chen, Trevor Chow, Ishan S. Khare, Christopher Ré
分类: cs.AI, cs.LG
发布日期: 2024-12-06
备注: 24 pages, 8 figures, 11 tables
💡 一句话要点
Smoothie:一种无标签的语言模型路由方法,提升多任务场景下的模型选择。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型路由 无监督学习 潜在变量模型 多任务学习 模型选择
📋 核心要点
- 现有LLM路由方法依赖于人工标注数据训练辅助模型,成本高昂且泛化性受限。
- Smoothie通过构建潜在变量图模型,利用不同LLM的输出估计每个LLM的样本依赖质量分数,实现无监督路由。
- 实验表明,Smoothie的质量分数与模型真实质量相关,并在路由准确率上显著优于现有基线方法。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于输入可能跨越多个不同任务的场景。最近的研究表明,LLM的选择至关重要,不同的LLM可能更适合不同的输入样本。因此,先前的方法探索了工程师如何为每个样本选择合适的LLM(即路由)。然而,现有的路由方法大多需要在人工标注的数据上训练辅助模型。本文探索了是否可以进行无监督路由。我们提出了Smoothie,一种受弱监督启发的路由方法,不需要任何标注数据。给定来自不同LLM的一组输出,Smoothie构建了一个潜在变量图模型,该模型基于可观察的LLM输出的嵌入表示和未知的“真实”输出。利用该图模型,我们估计每个LLM的样本依赖的质量分数,并将每个样本路由到具有最高相应分数的LLM。我们发现Smoothie的LLM质量分数与ground-truth模型质量相关(在14个任务中的9个任务上正确识别了最佳模型),并且Smoothie在路由方面优于基线方法,准确率提高了高达10个百分点。
🔬 方法详解
问题定义:论文旨在解决在多任务场景下,如何为每个输入样本选择最佳LLM的问题。现有方法通常需要大量人工标注数据来训练路由模型,这既耗时又昂贵,并且标注数据的质量直接影响路由性能。此外,标注数据可能存在偏差,导致路由模型泛化能力不足。
核心思路:Smoothie的核心思路是利用不同LLM对同一输入样本的输出,构建一个潜在变量图模型,从而推断每个LLM对于该样本的质量。该方法假设存在一个未知的“真实”输出,而每个LLM的输出都是对该真实输出的某种程度的近似。通过分析不同LLM输出之间的关系,可以估计每个LLM的质量,并选择质量最高的LLM进行路由。
技术框架:Smoothie的整体框架包括以下几个主要步骤:1) 使用多个LLM对同一输入样本生成输出;2) 将每个LLM的输出嵌入到向量空间中;3) 构建一个潜在变量图模型,其中节点表示LLM的输出嵌入和未知的“真实”输出嵌入,边表示它们之间的关系;4) 使用期望最大化(EM)算法或其他推断方法,估计每个LLM的样本依赖质量分数;5) 将输入样本路由到具有最高质量分数的LLM。
关键创新:Smoothie的关键创新在于它是一种无监督的LLM路由方法,不需要任何人工标注数据。它通过构建潜在变量图模型,利用不同LLM的输出来估计每个LLM的质量,从而实现自适应的LLM选择。这种方法不仅降低了标注成本,而且提高了路由的泛化能力。
关键设计:Smoothie的关键设计包括:1) 使用合适的嵌入模型将LLM的输出映射到向量空间中;2) 选择合适的图模型结构来表示LLM输出之间的关系;3) 设计合适的损失函数来优化图模型参数,例如,可以使用最大似然估计或变分推断;4) 使用合适的推断算法来估计每个LLM的质量分数,例如,可以使用EM算法或马尔可夫链蒙特卡罗(MCMC)方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Smoothie的LLM质量分数与ground-truth模型质量高度相关,在14个任务中的9个任务上正确识别了最佳模型。在路由任务中,Smoothie的准确率比现有基线方法提高了高达10个百分点,证明了其有效性。这些结果表明,Smoothie是一种有前景的无监督LLM路由方法。
🎯 应用场景
Smoothie可应用于各种需要LLM处理不同类型输入的场景,例如问答系统、文本摘要、机器翻译等。通过自动选择最适合特定输入的LLM,可以提高系统的整体性能和效率。该方法尤其适用于资源受限的环境,因为无需人工标注数据,可以降低部署和维护成本。未来,Smoothie可以扩展到更复杂的LLM组合和路由策略,进一步提升性能。
📄 摘要(原文)
Large language models (LLMs) are increasingly used in applications where LLM inputs may span many different tasks. Recent work has found that the choice of LLM is consequential, and different LLMs may be good for different input samples. Prior approaches have thus explored how engineers might select an LLM to use for each sample (i.e. routing). While existing routing methods mostly require training auxiliary models on human-annotated data, our work explores whether it is possible to perform unsupervised routing. We propose Smoothie, a weak supervision-inspired routing approach that requires no labeled data. Given a set of outputs from different LLMs, Smoothie constructs a latent variable graphical model over embedding representations of observable LLM outputs and unknown "true" outputs. Using this graphical model, we estimate sample-dependent quality scores for each LLM, and route each sample to the LLM with the highest corresponding score. We find that Smoothie's LLM quality-scores correlate with ground-truth model quality (correctly identifying the optimal model on 9/14 tasks), and that Smoothie outperforms baselines for routing by up to 10 points accuracy.