Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection
作者: Guillem Ramírez, Alexandra Birch, Ivan Titov
分类: cs.CL
发布日期: 2024-05-03
期刊: First Conference on Language Modeling. COLM 2024. Philadelphia, Pennsylvania, United States
💡 一句话要点
提出基于不确定性的双层选择方法,优化大语言模型调用成本与性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 模型调用优化 不确定性估计 成本效益 级联策略 路由策略 资源受限 双层选择
📋 核心要点
- 现有LLM调用优化方法依赖额外的神经网络模型进行决策,增加了复杂性和计算成本。
- 该论文提出利用小型LLM生成结果的不确定性作为决策标准,无需额外模型即可实现高效的LLM调用。
- 实验结果表明,该方法在多个任务上优于现有的级联和路由策略,实现了成本与性能的最佳平衡。
📝 摘要(中文)
研究人员和从业者在预算有限的情况下,面临着成本与性能之间的权衡困境,即选择性能更好的大型语言模型(LLM)还是成本更低的小型LLM。这推动了近期对LLM调用优化的研究。现有的方法要么采用级联策略(顺序调用小型LLM或同时调用大小LLM),要么采用路由策略(仅调用一个模型)。这两种策略都依赖于决策标准,通常由额外的神经网络模型实现。本文提出了一种更简单的解决方案:仅使用小型LLM生成的不确定性作为决策标准。通过在三个不同的大小LLM对和九个不同任务上,将该方法与级联和路由策略以及需要额外神经网络模型的方法进行比较。实验表明,这种简单解决方案能够最佳地平衡成本和性能,在27个实验设置中的25个上优于现有方法。
🔬 方法详解
问题定义:论文旨在解决在有限预算下如何高效调用大型语言模型的问题。现有方法,如级联和路由策略,通常需要额外的神经网络模型作为决策器,这增加了计算成本和模型复杂度。这些方法未能充分利用小型LLM本身提供的信息来指导调用策略。
核心思路:论文的核心思路是利用小型LLM生成结果的不确定性来判断是否需要调用大型LLM。如果小型LLM生成的结果不确定性高,则调用大型LLM以获得更可靠的结果;反之,则直接使用小型LLM的结果,从而节省计算成本。这种方法避免了引入额外的神经网络模型,简化了整个调用流程。
技术框架:整体框架包含两个层级:第一层级是小型LLM,负责初步生成结果并评估其不确定性;第二层级是大型LLM,仅在小型LLM结果不确定性较高时才被调用。流程如下:1. 输入文本被送入小型LLM进行生成。2. 小型LLM生成结果的同时,评估结果的不确定性。3. 如果不确定性高于预设阈值,则将输入文本送入大型LLM进行生成,并使用大型LLM的结果。4. 否则,直接使用小型LLM的结果。
关键创新:最重要的创新点在于使用小型LLM生成结果的不确定性作为调用策略的决策依据,避免了引入额外的神经网络模型。这种方法不仅简化了流程,还更有效地利用了小型LLM本身的信息。此外,该方法具有通用性,可以应用于不同的LLM对和不同的任务。
关键设计:论文中关键的设计在于如何衡量小型LLM生成结果的不确定性。具体的不确定性度量方法在论文中可能没有详细说明(未知),但通常可以采用诸如生成概率的方差、多个采样结果之间的差异等指标。阈值的选择也会影响最终的性能,需要根据具体的任务和LLM对进行调整。损失函数方面,该方法旨在优化成本和性能之间的平衡,因此可能没有特定的损失函数,而是通过调整不确定性阈值来实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在27个实验设置中的25个上优于现有的级联和路由策略,证明了其在成本和性能平衡方面的优越性。该方法无需额外的神经网络模型,简化了流程,降低了计算成本。具体的性能提升幅度取决于任务和LLM对,但总体上实现了显著的效率提升。
🎯 应用场景
该研究成果可广泛应用于各种需要调用大型语言模型的场景,尤其是在计算资源受限或对成本敏感的应用中,例如智能客服、文本摘要、机器翻译等。通过优化LLM的调用策略,可以降低运营成本,提高响应速度,并提升用户体验。未来,该方法可以进一步扩展到多模型融合、自适应调用策略等领域。
📄 摘要(原文)
Researchers and practitioners operating on a limited budget face the cost-performance trade-off dilemma. The challenging decision often centers on whether to use a large LLM with better performance or a smaller one with reduced costs. This has motivated recent research in the optimisation of LLM calls. Either a cascading strategy is used, where a smaller LLM or both are called sequentially, or a routing strategy is used, where only one model is ever called. Both scenarios are dependent on a decision criterion which is typically implemented by an extra neural model. In this work, we propose a simpler solution; we use only the uncertainty of the generations of the small LLM as the decision criterion. We compare our approach with both cascading and routing strategies using three different pairs of pre-trained small and large LLMs, on nine different tasks and against approaches that require an additional neural model. Our experiments reveal this simple solution optimally balances cost and performance, outperforming existing methods on 25 out of 27 experimental setups.