LLM-as-Judge on a Budget

作者: Aadirupa Saha, Aniket Wagde, Branislav Kveton

分类: cs.LG

发布日期: 2026-02-17

💡 一句话要点

提出基于多臂赌博机理论的LLM评估方法以优化查询分配

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 评估方法 多臂赌博机 方差自适应 计算预算 AI安全 模型对齐

📋 核心要点

现有方法在评估LLM时通常需要多次查询每个提示-响应对，导致计算资源浪费和效率低下。
本文提出了一种基于多臂赌博机理论的方差自适应方法，动态分配查询以优化估计精度。
实验结果显示，该方法在Summarize-From-Feedback和HelpSteer2任务中显著优于均匀分配策略，降低了估计误差。

📝 摘要（中文）

LLM作为评估工具已成为评估大型语言模型的重要技术，通过利用LLM推理对提示-响应对进行评分。然而，由于LLM判断具有随机性，实践中通常需要对每对进行多次查询以准确估计平均分。这引发了一个关键挑战：在固定计算预算下，如何在多个提示-响应对之间优化查询分配以最小化估计误差？本文提出了一种基于方差自适应的方法，利用多臂赌博机理论和集中不等式，动态分配查询资源，集中在不确定性最高的地方。实验结果表明，该方法在保持预算不变的情况下，显著降低了最坏情况下的估计误差。

🔬 方法详解

问题定义：本文解决的问题是如何在固定的计算预算下，优化查询分配以最小化LLM评估中的估计误差。现有方法通常需要对每个提示-响应对进行多次查询，导致资源浪费和效率低下。

核心思路：论文的核心思路是利用多臂赌博机理论，根据每个提示-响应对的估计分数方差动态分配查询，集中资源在不确定性较高的对上，从而提高估计精度。

技术框架：整体架构包括三个主要模块：首先，估计每个提示-响应对的分数方差；其次，基于方差动态调整查询分配；最后，进行多次查询并计算最终的估计分数。

关键创新：最重要的技术创新在于提出了一种基于方差自适应的查询分配策略，能够在最坏情况下实现$ ilde{O}ig( ext{sqrt}(rac{ ext{总方差}}{B})ig)$的估计误差，显著优于传统的均匀分配方法。

关键设计：关键设计包括对每个提示-响应对的方差估计方法，以及如何根据方差动态调整查询分配的算法设计，确保在预算限制下实现最优的资源利用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，本文提出的方法在Summarize-From-Feedback和HelpSteer2任务中，较均匀分配策略显著降低了最坏情况下的估计误差，具体提升幅度未知，且在相同预算下实现了更高的评估精度。

🎯 应用场景

该研究的潜在应用领域包括人工智能安全、模型对齐和大规模自动评估等。通过优化LLM的评估过程，可以提高模型的可靠性和安全性，促进更高效的AI系统开发与应用。

📄 摘要（原文）

LLM-as-a-judge has emerged as a cornerstone technique for evaluating large language models by leveraging LLM reasoning to score prompt-response pairs. Since LLM judgments are stochastic, practitioners commonly query each pair multiple times to estimate mean scores accurately. This raises a critical challenge: given a fixed computational budget $B$, how to optimally allocate queries across $K$ prompt-response pairs to minimize estimation error? % We present a principled variance-adaptive approach leveraging multi-armed bandit theory and concentration inequalities. Our method dynamically allocates queries based on estimated score variances, concentrating resources where uncertainty is highest. Further, our algorithm is shown to achieve a worst-case score-estimation error of $\tilde{O}\left(\sqrt{\frac{\sum_{i=1}^K σ_i^2}{B}}\right)$, $σ_i^2$ being the unknown score variance for pair $i \in [K]$ with near-optimal budget allocation. % Experiments on \emph{Summarize-From-Feedback} and \emph{HelpSteer2} demonstrate that our method significantly outperforms uniform allocation, reducing worst-case estimation error while maintaining identical budgets. Our work establishes a theoretical foundation for efficient LLM evaluation with practical implications for AI safety, model alignment, and automated assessment at scale.

LLM-as-Judge on a Budget

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理