Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language Models

📄 arXiv: 2505.20921v2 📥 PDF

作者: Injae Na, Keonwoong Noh, Woohwan Jung

分类: cs.CL, cs.AI

发布日期: 2025-05-27 (更新: 2025-05-29)

备注: ACL 2025 (Findings)


💡 一句话要点

提出LLM-AT框架,无需训练自动选择LLM层级,优化成本与准确率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动层级选择 成本优化 准确率估计 推理优化

📋 核心要点

  1. 现有方法难以在复杂NLP任务中为每个子任务选择最优LLM层级,导致成本高昂或性能不足。
  2. LLM-AT框架通过启动器、生成器和判断器,迭代选择合适的LLM层级,无需额外训练。
  3. 实验结果表明,LLM-AT在降低成本的同时,能够提升整体性能,具有实际应用价值。

📝 摘要(中文)

大型语言模型(LLM)提供商通常提供多个LLM层级,性能和价格各不相同。随着自然语言处理(NLP)任务变得越来越复杂和模块化,为每个子任务选择合适的LLM层级成为平衡成本和性能的关键挑战。为了解决这个问题,我们引入了LLM自动传输(LLM-AT)框架,该框架无需训练即可自动选择LLM层级。LLM-AT由启动器(Starter)、生成器(Generator)和判断器(Judge)组成。启动器选择预期能够解决给定问题的初始LLM层级,生成器使用所选层级的LLM生成响应,判断器评估响应的有效性。如果响应无效,LLM-AT迭代升级到更高层级的模型,生成新的响应,并重新评估,直到获得有效的响应。此外,我们提出了准确率估计器,它能够在无需训练的情况下选择合适的初始LLM层级。给定一个输入问题,准确率估计器通过计算来自过去推理记录的top-k相似查询的有效响应率来估计每个LLM层级的预期准确率。实验表明,LLM-AT在降低成本的同时实现了卓越的性能,使其成为实际应用的可行解决方案。

🔬 方法详解

问题定义:论文旨在解决在实际应用中,如何根据不同的NLP子任务,自动选择合适的LLM层级,从而在成本和性能之间取得最佳平衡的问题。现有方法通常要么固定使用最高性能的LLM,导致成本过高;要么人工选择LLM层级,效率低下且难以优化。因此,需要一种能够自动、高效地选择LLM层级的方法。

核心思路:论文的核心思路是构建一个自动化的LLM层级选择框架,该框架能够根据输入问题的复杂度和LLM的性能,动态地选择合适的LLM层级。通过迭代地生成和评估响应,逐步提升LLM层级,直到获得满足要求的响应。这种方法能够在保证性能的同时,尽可能地降低成本。

技术框架:LLM-AT框架主要由三个模块组成:启动器(Starter)、生成器(Generator)和判断器(Judge)。启动器负责根据输入问题,选择一个初始的LLM层级。生成器使用所选层级的LLM生成响应。判断器评估响应的有效性。如果响应无效,框架将升级到更高层级的LLM,并重复生成和评估的过程,直到获得有效的响应。

关键创新:该论文的关键创新在于提出了一个无需训练的准确率估计器,用于选择初始LLM层级。该估计器通过检索过去推理记录中与当前输入问题相似的top-k个查询,并计算每个LLM层级在这些相似查询上的有效响应率,从而估计每个LLM层级的预期准确率。这种方法避免了对每个LLM层级进行单独训练,大大降低了成本。

关键设计:准确率估计器的关键设计在于如何定义查询之间的相似度以及如何计算有效响应率。论文中具体采用何种相似度度量方法和有效响应率计算方式未知。此外,判断器(Judge)的实现方式也是一个关键设计,需要能够准确评估响应的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文实验结果表明,LLM-AT框架能够在降低成本的同时,保持甚至提升性能。具体的性能数据和对比基线未知,但摘要中明确指出LLM-AT在降低成本的同时实现了卓越的性能,使其成为实际应用的可行解决方案。

🎯 应用场景

LLM-AT框架可应用于各种需要使用LLM的实际场景,例如智能客服、内容生成、代码生成等。通过自动选择合适的LLM层级,可以在保证服务质量的前提下,显著降低运营成本,提高资源利用率。该研究对于推动LLM在实际应用中的普及具有重要意义。

📄 摘要(原文)

LLM providers typically offer multiple LLM tiers, varying in performance and price. As NLP tasks become more complex and modularized, selecting the suitable LLM tier for each subtask is a key challenge to balance between cost and performance. To address the problem, we introduce LLM Automatic Transmission (LLM-AT) framework that automatically selects LLM tiers without training. LLM-AT consists of Starter, Generator, and Judge. The starter selects the initial LLM tier expected to solve the given question, the generator produces a response using the LLM of the selected tier, and the judge evaluates the validity of the response. If the response is invalid, LLM-AT iteratively upgrades to a higher-tier model, generates a new response, and re-evaluates until a valid response is obtained. Additionally, we propose accuracy estimator, which enables the suitable initial LLM tier selection without training. Given an input question, accuracy estimator estimates the expected accuracy of each LLM tier by computing the valid response rate across top-k similar queries from past inference records. Experiments demonstrate that LLM-AT achieves superior performance while reducing costs, making it a practical solution for real-world applications.