metabench -- A Sparse Benchmark of Reasoning and Knowledge in Large Language Models

📄 arXiv: 2407.12844v2 📥 PDF

作者: Alex Kipnis, Konstantinos Voudouris, Luca M. Schulze Buschoff, Eric Schulz

分类: cs.CL, cs.LG, stat.ML

发布日期: 2024-07-04 (更新: 2025-02-20)

备注: accepted for publication at ICLR 2025


💡 一句话要点

MetaBench:针对大型语言模型推理和知识能力的稀疏基准测试集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 基准测试 稀疏化 推理能力 知识评估 模型评估 LLM评估

📋 核心要点

  1. 现有LLM基准测试存在冗余,大量测试项目测量的是相似或重复的能力,导致效率低下。
  2. 论文提出MetaBench,通过选择最具信息量的项目,构建一个更小、更高效的稀疏基准测试集。
  3. MetaBench在重建原始基准分数和总分方面表现出色,同时揭示了LLM能力评估的潜在共同因素。

📝 摘要(中文)

大型语言模型(LLM)在各种任务上的能力各不相同。Open LLM Leaderboard等项目旨在通过多个大型基准测试(LLM可以正确或错误响应的测试项目集)来量化这些差异。然而,基准分数内部和之间的相关性表明:(1)存在一小组常见的潜在能力,这些基准测试正在测量;(2)项目利用冗余信息,因此基准测试可以被大大压缩。我们使用来自超过5000个LLM的数据来识别六个基准测试(ARC、GSM8K、HellaSwag、MMLU、TruthfulQA和WinoGrande,总共包含d = 28,632个项目)中最具信息量的项目。从中,我们提炼出一个稀疏基准测试metabench,其大小不到所有六个基准测试组合大小的3%。这个新的稀疏基准测试超越了点数,产生了特定于底层基准测试能力的估计器。我们表明,这些估计器(1)可以用于重建每个原始的单独基准分数,平均均方根误差(RMSE)为1.24%,(2)以0.58%的RMSE重建原始总分,并且(3)具有一个与总分Spearman相关系数为r = 0.94的潜在共同因素。

🔬 方法详解

问题定义:现有的大型语言模型基准测试集存在冗余性,即许多测试项目测量的是相似或重复的能力。这导致了评估效率低下,并且难以准确地识别模型的核心能力。现有方法难以在保证评估质量的前提下,大幅度减少基准测试集的大小。

核心思路:论文的核心思路是通过选择最具信息量的测试项目,构建一个稀疏的基准测试集。这些项目能够最大程度地保留原始基准测试集的信息,同时显著减少测试集的规模。通过分析大量LLM在原始基准测试集上的表现,识别出最具区分度的项目。

技术框架:该研究主要包含以下几个阶段:1. 数据收集:收集超过5000个LLM在六个基准测试集(ARC、GSM8K、HellaSwag、MMLU、TruthfulQA和WinoGrande)上的表现数据。2. 项目选择:使用某种算法(论文中未明确说明具体算法,未知)从每个基准测试集中选择最具信息量的项目。3. MetaBench构建:将选定的项目组合成一个新的稀疏基准测试集MetaBench。4. 性能评估:使用MetaBench评估LLM,并将其结果与原始基准测试集的结果进行比较,评估MetaBench的性能。

关键创新:该研究的关键创新在于提出了一个稀疏基准测试集MetaBench,它能够在显著减少测试集规模的同时,保持对LLM能力的有效评估。MetaBench不仅提供了一个更高效的评估工具,还揭示了LLM能力评估的潜在共同因素。

关键设计:论文的关键设计在于如何选择最具信息量的项目。虽然论文没有详细说明具体的选择算法,但可以推测其目标是选择那些能够最大程度区分不同LLM能力的测试项目。此外,论文还设计了评估指标,用于衡量MetaBench在重建原始基准分数和总分方面的性能,例如均方根误差(RMSE)和Spearman相关系数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MetaBench仅使用原始基准测试集不到3%的项目,就能以平均1.24%的RMSE重建每个原始基准分数,并以0.58%的RMSE重建原始总分。MetaBench与原始总分具有高度相关性(Spearman相关系数r = 0.94),表明其能够有效捕捉LLM的核心能力。

🎯 应用场景

MetaBench可用于快速评估大型语言模型的核心推理和知识能力,帮助研究人员和开发者更高效地比较不同模型的性能。该研究成果还可应用于模型压缩和知识蒸馏,指导开发更小、更高效的LLM。此外,MetaBench有助于理解LLM能力的内在结构,为未来的模型设计提供指导。

📄 摘要(原文)

Large Language Models (LLMs) vary in their abilities on a range of tasks. Initiatives such as the Open LLM Leaderboard aim to quantify these differences with several large benchmarks (sets of test items to which an LLM can respond either correctly or incorrectly). However, high correlations within and between benchmark scores suggest that (1) there exists a small set of common underlying abilities that these benchmarks measure, and (2) items tap into redundant information and the benchmarks may thus be considerably compressed. We use data from n > 5000 LLMs to identify the most informative items of six benchmarks, ARC, GSM8K, HellaSwag, MMLU, TruthfulQA and WinoGrande (with d = 28,632 items in total). From them we distill a sparse benchmark, metabench, that has less than 3% of the original size of all six benchmarks combined. This new sparse benchmark goes beyond point scores by yielding estimators of the underlying benchmark-specific abilities. We show that these estimators (1) can be used to reconstruct each original individual benchmark score with, on average, 1.24% root mean square error (RMSE), (2) reconstruct the original total score with 0.58% RMSE, and (3) have a single underlying common factor whose Spearman correlation with the total score is r = 0.94.