More Bang for the Buck: Improving the Inference of Large Language Models at a Fixed Budget using Reset and Discard (ReD)

作者: Sagi Meir, Tommer D. Keidar, Noam Levi, Shlomi Reuveni, Barak Hirshberg

分类: cs.LG, cond-mat.dis-nn, cs.AI, stat.ML

发布日期: 2026-01-29

💡 一句话要点

提出Reset-and-Discard方法，提升固定预算下大语言模型推理的覆盖率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理优化 覆盖率 Reset-and-Discard 幂律 HumanEval 成本优化

📋 核心要点

现有方法在固定预算下，大语言模型推理存在收益递减问题，即增加尝试次数带来的新问题解决数量减少。
论文提出Reset-and-Discard (ReD)方法，通过重置和丢弃策略，优化查询过程，提升在固定预算下的覆盖率。
实验表明，ReD方法能显著减少达到目标覆盖率所需的尝试次数、tokens消耗和成本，并能有效评估推理能力。

📝 摘要（中文）

本文研究了在固定预算下，如何提升大语言模型(LLM)在可验证任务上的性能。通常使用pass@k指标衡量LLM的性能，即在k次尝试中至少回答正确一次的概率。但更合适的指标是coverage@cost，即作为总尝试次数函数的唯一问题平均回答数。本文将这两个指标联系起来，并表明pass@k中经验观察到的幂律行为导致coverage@cost的次线性增长（收益递减）。为了解决这个问题，本文提出Reset-and-Discard (ReD)，这是一种LLM查询方法，可以在任何给定预算下增加coverage@cost，而与pass@k的形式无关。此外，给定pass@k，可以定量预测使用ReD节省的总尝试次数。如果模型没有pass@k，ReD可以推断其幂律指数。在HumanEval上使用三个LLM的实验表明，ReD大大减少了达到所需覆盖率所需的尝试次数、tokens和美元成本，同时也提供了一种有效的方法来衡量推理幂律。

🔬 方法详解

问题定义：论文旨在解决在固定计算预算下，如何最大化大语言模型(LLM)解决问题的覆盖率。现有方法，如简单地增加采样次数(k)，会由于pass@k的幂律特性导致收益递减，即后续的采样带来的新问题解决数量越来越少，造成资源浪费。

核心思路：ReD的核心思路是，与其盲目地增加采样次数，不如在一定次数后重置（Reset）模型状态，并丢弃（Discard）之前的尝试结果，重新开始采样。这样可以避免模型陷入局部最优解，探索更多不同的解空间，从而提高解决问题的覆盖率。

技术框架：ReD方法的核心在于确定何时进行重置和丢弃操作。具体流程如下：1. 初始化模型状态。2. 进行若干次采样（尝试）。3. 评估当前覆盖率是否达到预期，或者是否达到预设的尝试次数上限。4. 如果满足重置条件，则重置模型状态，并丢弃之前的采样结果，返回步骤2。5. 如果未满足重置条件，则继续采样，直到达到预算上限。

关键创新：ReD的关键创新在于引入了重置和丢弃机制，打破了传统方法中持续采样的模式。通过周期性地重置模型状态，ReD能够有效地探索更广阔的解空间，从而提高解决问题的覆盖率。此外，ReD还可以用于估计模型的pass@k曲线的幂律指数，为模型评估提供了一种新的方法。

关键设计：ReD的关键设计在于确定重置的触发条件。论文中并未明确给出具体的重置触发条件，但暗示可以基于覆盖率的提升速度或尝试次数来设定。此外，如何有效地重置模型状态也是一个关键问题，可能涉及到模型参数的初始化、上下文信息的清除等操作。具体的实现细节可能需要根据不同的模型和任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在HumanEval数据集上，ReD方法能够显著减少达到目标覆盖率所需的尝试次数、tokens消耗和美元成本。具体来说，ReD在三个LLM上都取得了显著的性能提升，证明了其有效性和通用性。此外，ReD还能够有效地估计模型的pass@k曲线的幂律指数，为模型评估提供了一种新的方法。

🎯 应用场景

ReD方法可应用于各种需要利用大语言模型进行推理的任务，例如代码生成、问答系统、文本摘要等。通过在固定预算下提升覆盖率，ReD可以降低使用LLM的成本，并提高解决问题的效率。此外，ReD还可以作为一种评估LLM推理能力的工具，帮助研究人员更好地理解模型的行为。

📄 摘要（原文）

The performance of large language models (LLMs) on verifiable tasks is usually measured by pass@k, the probability of answering a question correctly at least once in k trials. At a fixed budget, a more suitable metric is coverage@cost, the average number of unique questions answered as a function of the total number of attempts. We connect the two metrics and show that the empirically-observed power-law behavior in pass@k leads to a sublinear growth of the coverage@cost (diminishing returns). To solve this problem, we propose Reset-and-Discard (ReD), a query method of LLMs that increases coverage@cost for any given budget, regardless of the pass@k form. Moreover, given a pass@k, we can quantitatively predict the savings in the total number of attempts using ReD. If pass@k is not available for the model, ReD can infer its power-law exponent. Experiments on three LLMs using HumanEval demonstrate that ReD substantially reduces the required attempts, tokens, and USD cost to reach a desired coverage, while also offering an efficient way to measure inference power-laws.

More Bang for the Buck: Improving the Inference of Large Language Models at a Fixed Budget using Reset and Discard (ReD)

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理