Submodular Benchmark Selection
作者: Alexander Smola
分类: cs.AI, cs.LG
发布日期: 2026-05-04
💡 一句话要点
提出基于次模优化的基准测试选择方法,降低大模型评测成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 次模优化 基准测试选择 大型语言模型 模型评估 互信息 熵 贪婪算法
📋 核心要点
- 现有大模型评测面临基准测试数量庞大、测试成本高昂的问题,且基准测试之间存在高度相关性。
- 论文提出基于次模最大化的基准测试选择方法,旨在选取一个小的、信息量大的基准测试子集。
- 实验结果表明,对于小规模子集的插补任务,基于互信息选择的基准测试子集优于基于熵选择的子集。
📝 摘要(中文)
评估大型语言模型在众多基准测试上的表现成本高昂,且许多基准测试高度相关。本文将选择一个小的、信息量大的子集形式化为多元高斯模型下的次模最大化问题。熵(对数行列式协方差)以及所选基准测试与剩余基准测试之间的互信息自然而然地成为目标函数。两者都是次模的;熵选择与枢轴Cholesky分解重合,并具有谱残差界限,而互信息通常是非单调的,但对于小的子集在经验上是单调的,因此我们贪婪地优化它。在来自十个公共排行榜的三个矩阵上的实验表明,对于小规模子集的插补,互信息选择优于熵选择。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)评估通常需要在大量的基准测试上进行,这导致了巨大的计算和时间成本。此外,许多基准测试之间存在高度的相关性,这意味着在所有基准测试上进行评估可能存在冗余。因此,如何选择一个小的、信息量丰富的基准测试子集,以在降低评估成本的同时,尽可能保留评估的有效性,是一个重要的挑战。
核心思路:论文的核心思路是将基准测试选择问题建模为一个次模最大化问题。具体来说,论文假设基准测试之间的关系可以用多元高斯模型来描述,并利用熵(对数行列式协方差)和互信息作为目标函数,来衡量所选基准测试子集的信息量。由于熵和互信息都具有次模性,因此可以使用贪婪算法等方法来有效地找到一个近似最优的基准测试子集。
技术框架:论文的技术框架主要包括以下几个步骤:1. 构建基准测试之间的协方差矩阵。2. 定义基于熵和互信息的次模目标函数。3. 使用贪婪算法或其他优化算法来最大化目标函数,从而选择一个基准测试子集。4. 使用所选的基准测试子集来评估LLM,并与其他基准测试选择方法进行比较。
关键创新:论文的关键创新在于将基准测试选择问题建模为一个次模最大化问题,并利用熵和互信息作为目标函数。这种方法能够有效地选择一个小的、信息量丰富的基准测试子集,从而降低LLM的评估成本。此外,论文还证明了熵选择与枢轴Cholesky分解重合,并具有谱残差界限。
关键设计:论文的关键设计包括:1. 使用多元高斯模型来描述基准测试之间的关系。2. 定义基于熵和互信息的次模目标函数。3. 使用贪婪算法来最大化目标函数。对于互信息,由于其通常是非单调的,论文采用贪婪算法,并在实验中验证了其在小规模子集上的单调性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在三个来自十个公共排行榜的矩阵上,对于小规模子集的插补任务,基于互信息选择的基准测试子集优于基于熵选择的子集。这表明互信息能够更好地捕捉基准测试之间的相关性,从而选择更具代表性的子集。
🎯 应用场景
该研究成果可应用于大型语言模型的快速评估和筛选,降低模型开发和部署的成本。此外,该方法还可以推广到其他机器学习模型的评估,以及特征选择、传感器选择等领域,具有广泛的应用前景。
📄 摘要(原文)
Evaluating large language models across many benchmarks is expensive, yet many benchmarks are highly correlated. We formalize the selection of a small, informative subset as submodular maximization under a multivariate Gaussian model. Entropy (log-determinant covariance) and mutual information between selected and remaining benchmarks arise as natural objectives. Both are submodular; entropy selection coincides with pivoted Cholesky and has spectral residual bounds, while mutual information is non-monotone in general but empirically monotone for small subsets, so we optimize it greedily. Experiments on three matrices from ten public leaderboards show that mutual information selection outperforms entropy for imputation at small subsets.