Efficient Evaluation of LLM Performance with Statistical Guarantees

📄 arXiv: 2601.20251v1 📥 PDF

作者: Skyler Wu, Yash Nair, Emmanuel J. Candés

分类: stat.ML, cs.LG

发布日期: 2026-01-28

备注: 24 pages, 10 figures


💡 一句话要点

提出FAQ方法,在固定查询预算下高效评估LLM性能并保证统计有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 主动学习 贝叶斯因子模型 统计推断 有限总体 置信区间 方差减少

📋 核心要点

  1. 现有LLM评估方法计算成本高昂,难以在有限资源下进行充分测试。
  2. FAQ方法利用历史信息和主动学习,在保证统计有效性的前提下,自适应选择问题进行评估。
  3. 实验表明,FAQ方法在两个基准测试上,有效样本量增益高达5倍,显著提升了评估效率。

📝 摘要(中文)

对大量大型语言模型(LLM)在一系列基准测试上进行详尽评估成本高昂。本文将基准测试视为有限总体推断问题,并在固定查询预算下,寻求模型准确性的严格置信区间(CI),并具有有效的频率论覆盖率。我们提出了分解主动查询(FAQ),它(a)通过贝叶斯因子模型利用历史信息;(b)使用混合方差减少/主动学习采样策略自适应地选择问题;以及(c)通过主动主动推断(Proactive Active Inference)保持有效性——主动推断(Zrnic&Candes,2024)的有限总体扩展,可以在保持覆盖率的同时直接选择问题。在可忽略不计的开销成本下,FAQ在两个基准测试套件上,在不同的历史数据缺失水平下,提供了比强大的基线高达5倍的有效样本量增益:这意味着它在使用高达5倍更少的查询的同时,匹配了均匀采样的CI宽度。我们发布了我们的源代码和我们精心策划的数据集,以支持可重复的评估和未来的研究。

🔬 方法详解

问题定义:论文旨在解决在有限的查询预算下,如何高效且可靠地评估大型语言模型(LLM)的性能。现有的评估方法,例如均匀采样,需要大量的查询才能获得具有统计意义的置信区间,这对于计算资源有限的情况来说是不可行的。因此,如何在减少查询次数的同时,保证评估结果的准确性和可靠性是一个关键问题。

核心思路:论文的核心思路是利用历史数据和主动学习策略,智能地选择最具信息量的查询,从而在有限的预算下最大化评估效率。通过贝叶斯因子模型,FAQ可以有效地利用历史评估数据,减少对新查询的需求。同时,主动学习策略能够自适应地选择那些能够最大程度减少不确定性的问题,进一步提高评估效率。此外,Proactive Active Inference保证了评估结果的统计有效性。

技术框架:FAQ方法包含以下几个主要模块:1) 贝叶斯因子模型:用于整合历史评估数据,学习模型之间的相关性,从而减少对新查询的需求。2) 混合采样策略:结合方差减少和主动学习,自适应地选择查询。方差减少旨在选择那些能够减少整体方差的查询,而主动学习则旨在选择那些能够最大程度减少模型不确定性的查询。3) Proactive Active Inference:用于保证评估结果的统计有效性,即使在主动选择查询的情况下,也能提供可靠的置信区间。

关键创新:FAQ方法的关键创新在于其结合了贝叶斯因子模型、混合采样策略和Proactive Active Inference,从而在保证统计有效性的前提下,显著提高了LLM评估的效率。与传统的均匀采样方法相比,FAQ能够更智能地选择查询,从而在有限的预算下获得更准确的评估结果。Proactive Active Inference是保证评估结果统计有效性的关键。

关键设计:FAQ方法中的关键设计包括:1) 贝叶斯因子模型的选择:需要根据具体的LLM和基准测试选择合适的因子模型。2) 混合采样策略的权重:需要根据具体的任务和数据调整方差减少和主动学习的权重。3) Proactive Active Inference的参数设置:需要根据具体的置信水平和样本量设置合适的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FAQ方法在两个基准测试套件上,相比于强大的基线方法,有效样本量增益高达5倍。这意味着在相同的置信区间宽度下,FAQ方法可以使用更少的查询,显著提高了评估效率。即使在历史数据缺失的情况下,FAQ方法仍然能够保持良好的性能。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的评估和选择,尤其是在资源受限的场景下。例如,在开发移动端LLM应用时,可以使用FAQ方法快速评估不同模型的性能,从而选择最适合的模型。此外,该方法还可以用于持续监控LLM的性能,及时发现并解决潜在的问题。未来,该方法可以扩展到其他类型的机器学习模型评估。

📄 摘要(原文)

Exhaustively evaluating many large language models (LLMs) on a large suite of benchmarks is expensive. We cast benchmarking as finite-population inference and, under a fixed query budget, seek tight confidence intervals (CIs) for model accuracy with valid frequentist coverage. We propose Factorized Active Querying (FAQ), which (a) leverages historical information through a Bayesian factor model; (b) adaptively selects questions using a hybrid variance-reduction/active-learning sampling policy; and (c) maintains validity through Proactive Active Inference -- a finite-population extension of active inference (Zrnic & Candes, 2024) that enables direct question selection while preserving coverage. With negligible overhead cost, FAQ delivers up to $5\times$ effective sample size gains over strong baselines on two benchmark suites, across varying historical-data missingness levels: this means that it matches the CI width of uniform sampling while using up to $5\times$ fewer queries. We release our source code and our curated datasets to support reproducible evaluation and future research.