Valid Best-Model Identification for LLM Evaluation via Low-Rank Factorization

📄 arXiv: 2605.10405v1 📥 PDF

作者: Elad Tolochinsky, Yaniv Tenzer, Yaniv Romano

分类: cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出基于低秩分解的鲁棒多臂老虎机框架,实现大模型评估的高效与统计有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 多臂老虎机 低秩矩阵分解 双重鲁棒估计 统计推断 计算效率优化

📋 核心要点

  1. 现有LLM评估方法在穷举测试时计算成本极高,而单纯依赖低秩矩阵补全预测模型性能又缺乏统计鲁棒性,易导致最优模型识别偏差。
  2. 论文提出了一种结合多臂老虎机(MAB)与低秩矩阵分解的评估框架,通过引入双重鲁棒估计量,在利用预测信息降低方差的同时保证了统计有效性。
  3. 实验表明,该方法在真实基准测试中显著降低了LLM调用次数,在大幅节省计算资源的同时,保持了对最优模型识别的高准确度。

📝 摘要(中文)

在固定基准测试中选择最优大语言模型(LLM)通常成本高昂,因为穷举评估需要对每个模型在每个样本上进行推理。多臂老虎机(MAB)算法通过顺序选择模型-样本对进行评估,避免了对表现不佳模型的无效测试,从而减少了调用次数。此外,利用低秩分解对部分观测到的模型-样本得分矩阵进行预测,可进一步节省成本。然而,预测值并非真实值,可能存在偏差并导致最优模型识别错误。本文提出了一种原则性框架,将MAB与低秩预测得分相结合,在不牺牲统计有效性的前提下降低评估成本。具体而言,我们推导了模型性能的双重鲁棒估计量,利用低秩预测来降低方差,从而在自适应选择和无放回采样场景下构建了有效的有限样本置信区间。在真实基准测试上的实验结果表明,该方法显著减少了评估需求,在节省计算成本的同时准确识别出最优模型。

🔬 方法详解

问题定义:论文旨在解决大规模语言模型在基准测试中评估成本过高的问题。现有方法要么进行全量评估(计算冗余),要么依赖低秩矩阵补全预测(存在偏差且缺乏统计置信度),导致在资源受限下难以准确识别最优模型。

核心思路:核心思想是将多臂老虎机(MAB)的自适应采样策略与低秩矩阵分解的预测能力相结合。通过引入双重鲁棒(Doubly Robust)估计量,利用低秩预测作为控制变量来降低估计方差,同时通过偏差修正项消除预测偏差,确保统计推断的有效性。

技术框架:整体框架包含三个阶段:首先,通过部分观测数据进行低秩矩阵分解以获取性能先验;其次,利用MAB算法在自适应采样过程中动态选择模型-样本对;最后,基于双重鲁棒估计量计算模型性能的置信区间,并根据置信区间收敛情况终止评估。

关键创新:最重要的创新在于将双重鲁棒估计理论引入到自适应LLM评估中。这使得算法既能利用低秩预测带来的“捷径”加速收敛,又能通过统计学上的无偏性保证,避免因预测误差导致的最优模型误判。

关键设计:关键技术细节包括:采用奇异值分解(SVD)进行低秩矩阵补全;构建包含预测偏差修正项和方差缩减项的估计量;在无放回采样设置下,推导适用于有限样本的置信区间,确保在自适应决策过程中的统计严谨性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多个真实LLM基准测试上进行,结果显示该方法在保持与全量评估同等识别准确率的前提下,大幅减少了所需的模型推理次数。相比于传统的MAB算法,该方法通过引入低秩先验,显著缩短了置信区间收敛所需的时间,在计算成本与评估精度之间实现了最优平衡。

🎯 应用场景

该研究适用于大规模语言模型开发与部署阶段的基准测试评估。在模型选型、超参数调优及模型性能监控场景下,该方法能显著降低API调用成本与计算资源消耗,特别适合在预算受限的工业界研发环境中快速筛选出最优模型,具有极高的工程实用价值。

📄 摘要(原文)

Selecting the best large language model (LLM) for a fixed benchmark is often expensive, since exhaustive evaluation requires running every model on every example. Multi-armed bandit (MAB) algorithms can reduce the number of LLM calls by sequentially selecting the next model-example pair to evaluate, thereby avoiding wasted evaluations on clearly underperforming models. Further savings can be achieved by predicting model scores from the partially observed model-example score matrix using low-rank factorization. However, such predictions are not ground truth: they can be biased and may therefore lead to incorrect identification of the best model. In this work, we propose a principled framework that combines MAB with cheap predicted scores without compromising statistical validity. Specifically, we derive doubly robust estimators of each model's performance that use the low-rank predictions to reduce variance. This enables the construction of valid finite-sample confidence intervals in our setting, where models are selected adaptively and examples are sampled without replacement. Empirical results on real-world benchmarks show that our approach reduces the number of required evaluations, yielding meaningful savings in compute and cost while accurately identifying the best-performing model.