More Bang for the Buck: Improving the Inference of Large Language Models at a Fixed Budget using Reset and Discard (ReD)
作者: Sagi Meir, Tommer D. Keidar, Noam Levi, Shlomi Reuveni, Barak Hirshberg
分类: cs.LG, cond-mat.dis-nn, cs.AI, stat.ML
发布日期: 2026-01-29
💡 一句话要点
提出Reset-and-Discard方法,提升固定预算下大语言模型推理的覆盖率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理优化 覆盖率 Reset-and-Discard 幂律 HumanEval 成本优化
📋 核心要点
- 现有方法在固定预算下,大语言模型推理存在收益递减问题,即增加尝试次数带来的新问题解决数量减少。
- 论文提出Reset-and-Discard (ReD)方法,通过重置和丢弃策略,优化查询过程,提升在固定预算下的覆盖率。
- 实验表明,ReD方法能显著减少达到目标覆盖率所需的尝试次数、tokens消耗和成本,并能有效评估推理能力。
📝 摘要(中文)
本文研究了在固定预算下,如何提升大语言模型(LLM)在可验证任务上的性能。通常使用pass@k指标衡量LLM的性能,即在k次尝试中至少回答正确一次的概率。但更合适的指标是coverage@cost,即作为总尝试次数函数的唯一问题平均回答数。本文将这两个指标联系起来,并表明pass@k中经验观察到的幂律行为导致coverage@cost的次线性增长(收益递减)。为了解决这个问题,本文提出Reset-and-Discard (ReD),这是一种LLM查询方法,可以在任何给定预算下增加coverage@cost,而与pass@k的形式无关。此外,给定pass@k,可以定量预测使用ReD节省的总尝试次数。如果模型没有pass@k,ReD可以推断其幂律指数。在HumanEval上使用三个LLM的实验表明,ReD大大减少了达到所需覆盖率所需的尝试次数、tokens和美元成本,同时也提供了一种有效的方法来衡量推理幂律。
🔬 方法详解
问题定义:论文旨在解决在固定计算预算下,如何最大化大语言模型(LLM)解决问题的覆盖率。现有方法,如简单地增加采样次数(k),会由于pass@k的幂律特性导致收益递减,即后续的采样带来的新问题解决数量越来越少,造成资源浪费。
核心思路:ReD的核心思路是,与其盲目地增加采样次数,不如在一定次数后重置(Reset)模型状态,并丢弃(Discard)之前的尝试结果,重新开始采样。这样可以避免模型陷入局部最优解,探索更多不同的解空间,从而提高解决问题的覆盖率。
技术框架:ReD方法的核心在于确定何时进行重置和丢弃操作。具体流程如下:1. 初始化模型状态。2. 进行若干次采样(尝试)。3. 评估当前覆盖率是否达到预期,或者是否达到预设的尝试次数上限。4. 如果满足重置条件,则重置模型状态,并丢弃之前的采样结果,返回步骤2。5. 如果未满足重置条件,则继续采样,直到达到预算上限。
关键创新:ReD的关键创新在于引入了重置和丢弃机制,打破了传统方法中持续采样的模式。通过周期性地重置模型状态,ReD能够有效地探索更广阔的解空间,从而提高解决问题的覆盖率。此外,ReD还可以用于估计模型的pass@k曲线的幂律指数,为模型评估提供了一种新的方法。
关键设计:ReD的关键设计在于确定重置的触发条件。论文中并未明确给出具体的重置触发条件,但暗示可以基于覆盖率的提升速度或尝试次数来设定。此外,如何有效地重置模型状态也是一个关键问题,可能涉及到模型参数的初始化、上下文信息的清除等操作。具体的实现细节可能需要根据不同的模型和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在HumanEval数据集上,ReD方法能够显著减少达到目标覆盖率所需的尝试次数、tokens消耗和美元成本。具体来说,ReD在三个LLM上都取得了显著的性能提升,证明了其有效性和通用性。此外,ReD还能够有效地估计模型的pass@k曲线的幂律指数,为模型评估提供了一种新的方法。
🎯 应用场景
ReD方法可应用于各种需要利用大语言模型进行推理的任务,例如代码生成、问答系统、文本摘要等。通过在固定预算下提升覆盖率,ReD可以降低使用LLM的成本,并提高解决问题的效率。此外,ReD还可以作为一种评估LLM推理能力的工具,帮助研究人员更好地理解模型的行为。
📄 摘要(原文)
The performance of large language models (LLMs) on verifiable tasks is usually measured by pass@k, the probability of answering a question correctly at least once in k trials. At a fixed budget, a more suitable metric is coverage@cost, the average number of unique questions answered as a function of the total number of attempts. We connect the two metrics and show that the empirically-observed power-law behavior in pass@k leads to a sublinear growth of the coverage@cost (diminishing returns). To solve this problem, we propose Reset-and-Discard (ReD), a query method of LLMs that increases coverage@cost for any given budget, regardless of the pass@k form. Moreover, given a pass@k, we can quantitatively predict the savings in the total number of attempts using ReD. If pass@k is not available for the model, ReD can infer its power-law exponent. Experiments on three LLMs using HumanEval demonstrate that ReD substantially reduces the required attempts, tokens, and USD cost to reach a desired coverage, while also offering an efficient way to measure inference power-laws.