Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference
作者: Bo-Wei Chen, Chung-Chi Chen, An-Zi Yen
分类: cs.CL
发布日期: 2026-02-25
备注: Accepted by EACL 2026 Findings
💡 一句话要点
提出置信度驱动的多尺度模型选择策略,实现成本效益高的LLM推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型选择 置信度估计 成本效益 动态推理
📋 核心要点
- 大型语言模型推理成本高昂,如何在保证性能的同时降低计算成本是核心问题。
- 论文提出一种置信度驱动的模型选择策略,根据模型置信度动态选择合适的模型。
- 实验表明,该方法在MMLU基准上达到与最大模型相当的准确率,同时降低了20%-40%的计算成本。
📝 摘要(中文)
大型语言模型(LLM)彻底改变了各种自然语言任务的推理,更大的模型性能更好,但计算成本更高。我们提出了一种置信度驱动的策略,该策略基于置信度估计动态选择最合适的模型。通过评估模型处理任务和响应准确性的置信度,保留可能正确解决的任务,而将更不确定或复杂的案例委托给更大的模型,从而在确保可靠性的同时最大限度地降低计算成本。具体来说,我们评估模型知道正确答案的可能性以及其响应准确的概率。在Massive Multitask Language Understanding (MMLU) 基准上的实验表明,我们的方法实现了与最大模型相当的准确性,同时降低了 20% 到 40% 的计算成本。当应用于 GPT-4o API 调用时,它将 token 使用量减少了约 60%,进一步提高了成本效率。这些发现表明,基于置信度的模型选择具有增强实际 LLM 部署的潜力,尤其是在边缘设备和商业 API 应用程序等资源受限的环境中。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)虽然在各种自然语言任务中表现出色,但其高计算成本限制了它们在资源受限环境中的部署。如何在保证模型性能(例如准确率)的前提下,降低LLM的推理成本,是本论文要解决的核心问题。现有方法通常采用固定大小的模型进行推理,无法根据任务的难易程度动态调整计算资源,导致资源浪费。
核心思路:本论文的核心思路是利用模型自身的置信度估计来指导模型选择。具体来说,对于简单的、模型有把握的任务,使用较小的模型进行推理;对于复杂的、模型不确定的任务,则使用较大的模型进行推理。通过这种方式,可以在保证性能的同时,最大限度地降低计算成本。
技术框架:整体框架包含以下几个主要阶段:1) 使用小型模型进行初步推理;2) 评估小型模型对当前任务的置信度,包括模型知道正确答案的可能性以及其响应准确的概率;3) 根据置信度评估结果,决定是否将任务委托给更大的模型;4) 如果委托给更大的模型,则使用更大的模型进行推理;5) 输出最终结果。
关键创新:最重要的技术创新点在于提出了一种基于置信度估计的动态模型选择策略。与现有方法相比,该策略能够根据任务的难易程度自适应地调整计算资源,从而在保证性能的同时显著降低计算成本。这种方法的核心在于如何准确评估模型的置信度,并将其与模型选择策略相结合。
关键设计:论文中可能涉及的关键设计包括:1) 置信度评估指标的选择,例如可以使用模型的输出概率分布的熵来衡量模型的不确定性;2) 模型选择的阈值设定,需要根据具体的任务和模型进行调整,以达到最佳的性能和成本平衡;3) 如何有效地利用小型模型和大型模型的知识,例如可以使用知识蒸馏等技术将大型模型的知识迁移到小型模型中。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MMLU基准测试中,能够在达到与最大模型相当的准确率的同时,将计算成本降低20%到40%。当应用于GPT-4o API调用时,token使用量减少了约60%,显著提高了成本效益。这些结果表明,该方法在实际应用中具有很大的潜力。
🎯 应用场景
该研究成果可广泛应用于各种需要低成本、高效率LLM推理的场景,例如边缘设备上的自然语言处理、移动应用中的智能助手、以及商业API服务等。通过降低LLM的计算成本,可以使其更容易部署在资源受限的环境中,并为更广泛的用户提供服务。此外,该方法还可以应用于模型压缩和加速等领域,进一步提高LLM的实用性。
📄 摘要(原文)
Large Language Models (LLMs) have revolutionized inference across diverse natural language tasks, with larger models performing better but at higher computational costs. We propose a confidence-driven strategy that dynamically selects the most suitable model based on confidence estimates. By assessing a model's confidence in handling the task and response accuracy, tasks that are likely to be solved correctly are retained, while more uncertain or complex cases are delegated to a larger model, ensuring reliability while minimizing computation. Specifically, we evaluate a model's likelihood of knowing the correct answer and the probability that its response is accurate. Experiments on the Massive Multitask Language Understanding (MMLU) benchmark show that our approach achieves accuracy comparable to the largest model while reducing computational costs by 20\% to 40\%. When applied to GPT-4o API calls, it reduces token usage by approximately 60\%, further improving cost efficiency. These findings indicate the potential of confidence-based model selection to enhance real-world LLM deployment, particularly in resource-constrained settings such as edge devices and commercial API applications.