Tuning LLM Judge Design Decisions for 1/1000 of the Cost

作者: David Salinas, Omar Swelam, Frank Hutter

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-01-24 (更新: 2025-05-27)

🔗 代码/项目: GITHUB

💡 一句话要点

通过低成本超参数调优，实现高性价比的大语言模型评判器设计

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 LLM评判器 超参数优化 多目标优化 多保真度优化

📋 核心要点

现有LLM评测依赖昂贵的人工标注，且不同LLM评判器设计方案缺乏系统性对比。
提出利用多目标多保真度优化，在准确性和成本之间权衡，高效搜索LLM评判器超参数。
实验表明，该方法能找到优于现有基准，且基于开放权重模型的高性价比评判器。

📝 摘要（中文）

评估大型语言模型（LLM）通常需要昂贵的人工标注。为了解决这个问题，研究者提出了基于LLM的评判器，通过比较两个LLM的输出来对模型进行排序，从而无需人工干预。尽管已经提出了几种方法，但不同论文之间存在许多混淆因素。例如，模型、提示和其他超参数通常同时更改，使得直接比较具有挑战性。在本文中，我们提出系统地分析和调整LLM评判器的超参数。为了减轻评估评判器的高成本，我们提出利用多目标多保真度优化，从而找到在准确性和成本之间进行权衡的评判器，并显著降低搜索成本。我们的方法识别出的评判器不仅在准确性和成本效益方面优于现有基准，而且还利用开放权重模型，确保了更大的可访问性和可重复性。实验代码可在https://github.com/geoalgo/judgetuning 获取。

🔬 方法详解

问题定义：论文旨在解决LLM评判器设计中，人工标注成本高昂以及超参数优化缺乏系统性的问题。现有方法通常同时改变模型、prompt等多个超参数，难以进行公平比较，且评判器的评估成本很高，限制了超参数搜索的效率。

核心思路：论文的核心思路是利用多目标多保真度优化，在评判器的准确性和成本之间进行权衡。通过低保真度的评估来快速筛选有潜力的配置，在高保真度下精细评估，从而降低整体的搜索成本。同时，系统性地分析和调整LLM评判器的超参数，避免不同因素的混淆。

技术框架：该方法主要包含以下几个阶段：1) 定义LLM评判器的超参数空间，包括模型选择、prompt设计等。2) 构建多目标优化问题，目标包括评判器的准确性和成本。3) 利用多保真度优化算法，例如贝叶斯优化，在不同的保真度下评估评判器的性能。4) 根据优化结果，选择最优的评判器配置。

关键创新：论文的关键创新在于将多目标多保真度优化应用于LLM评判器的超参数搜索。这种方法能够在保证评判器准确性的前提下，显著降低评估成本，从而实现更高效的评判器设计。此外，论文强调使用开放权重模型，增强了结果的可复现性和可访问性。

关键设计：论文的关键设计包括：1) 精心设计的超参数空间，覆盖了影响评判器性能的关键因素。2) 多目标优化问题的合理构建，准确反映了评判器的性能指标。3) 多保真度优化算法的选择和配置，例如使用基于高斯过程的贝叶斯优化算法，并根据实际情况调整保真度参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够找到在准确性和成本效益方面优于现有基准的LLM评判器。通过多目标多保真度优化，评估成本降低了1000倍。此外，该方法还能够利用开放权重模型，确保了结果的可复现性和可访问性，为LLM评判器的设计提供了一种新的思路。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的评估和选择，尤其是在资源受限的场景下。通过低成本的LLM评判器，可以更高效地对模型进行排序和筛选，加速LLM的开发和应用。此外，该方法还可以应用于其他需要进行模型评估的领域，例如图像识别、语音识别等。

📄 摘要（原文）

Evaluating Large Language Models (LLMs) often requires costly human annotations. To address this, LLM-based judges have been proposed, which compare the outputs of two LLMs enabling the ranking of models without human intervention. While several approaches have been proposed, many confounding factors are present between different papers. For instance the model, the prompt and other hyperparameters are typically changed at the same time making apple-to-apple comparisons challenging. In this paper, we propose to systematically analyze and tune the hyperparameters of LLM judges. To alleviate the high cost of evaluating a judge, we propose to leverage multi-objective multi-fidelity which allows to find judges that trade accuracy for cost and also significantly reduce the cost of the search. Our method identifies judges that not only outperform existing benchmarks in accuracy and cost-efficiency but also utilize open-weight models, ensuring greater accessibility and reproducibility. The code to reproduce our experiments is available at this repository https://github.com/geoalgo/judgetuning .

Tuning LLM Judge Design Decisions for 1/1000 of the Cost

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理