Mapping Overlaps in Benchmarks through Perplexity in the Wild

📄 arXiv: 2509.23488v3 📥 PDF

作者: Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans

分类: cs.AI, cs.CL

发布日期: 2025-09-27 (更新: 2025-11-03)


💡 一句话要点

通过困惑度分析基准测试集的重叠度,揭示LLM能力间的关联

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 基准测试 困惑度 能力评估 重叠分析 模型泛化 知识表示

📋 核心要点

  1. 现有LLM基准测试集之间存在重叠,导致对模型能力的评估不够准确,难以区分模型真正擅长的领域。
  2. 论文提出基于困惑度的基准测试签名方法,通过分析LLM在特定token上的困惑度来识别基准测试集之间的重叠和差异。
  3. 实验结果表明,该方法能够有效捕捉不同基准测试集之间的重叠关系,并揭示LLM在不同能力上的表现差异。

📝 摘要(中文)

本文提出了一种基于容量熟悉度特征的方法,用于刻画大型语言模型(LLM)基准测试集及其有意义的重叠。基准测试签名探究了基准测试性能所需的能力,并将其正式定义为一组来自真实世界语料库的显著token,其中LLM token困惑度(反映了预训练的暴露程度)能够高度预测LLM基准测试性能。通过大规模的元评估,我们利用逐步前向选择和线性回归,在32个LLM和88个基准测试集(涵盖知识、编码、逻辑、指令跟随、数学、语言、推理和世界建模等领域)中提取基准测试签名。我们的分析将签名与基准测试问题的语义相似性和模型性能的相关性联系起来。虽然性能重叠普遍较高,语义重叠仅限于狭窄的中间范围,但基准测试签名在捕获变化、重叠和差异方面非常有效。我们观察到知识和推理子任务存在重叠,而多语言和文化基准测试的相似性较低,甚至低于跨任务重叠。值得注意的是,性能层面的结果受到基准测试正交因素(如问题格式)的强烈影响,突出了LLM泛化的局限性,性能与能力的混淆,以及当前主流基准测试一致性研究中固有的问题。然而,基准测试签名对这些影响具有鲁棒性。最终,我们识别出逻辑、数学、语言、指令跟随和世界建模之间的跨功能重叠,而编码是最不重叠的领域。总之,这些发现为基准测试的有效性和LLM的敏感性提供了机制性的见解,并勾勒出相互关联的LLM能力的基础图景。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)基准测试集存在显著的重叠,这意味着模型在某些基准测试上的高分可能并非源于其在该特定领域的卓越能力,而是因为其在其他相关领域的知识或技能。这种重叠使得我们难以准确评估LLM的真实能力,并可能导致对模型性能的误判。现有方法难以有效识别和量化这些重叠,从而限制了我们对LLM能力边界的理解。

核心思路:本文的核心思路是利用LLM在不同token上的困惑度(Perplexity)作为一种“签名”,来表征不同基准测试集所考察的能力。困惑度反映了LLM对特定token的熟悉程度,可以间接反映LLM在预训练阶段接触到的相关知识或技能。如果两个基准测试集的签名相似,则表明它们考察的能力存在重叠。这种方法的核心在于假设LLM的预训练暴露程度与基准测试性能之间存在关联,并利用困惑度来量化这种关联。

技术框架:整体框架包括以下几个主要阶段:1) 基准测试集选择:选择涵盖不同领域(知识、编码、逻辑等)的LLM基准测试集。2) LLM选择:选择多个具有代表性的LLM进行评估。3) 签名提取:对于每个基准测试集,提取一组显著的token作为其签名,这些token的困惑度与LLM在该基准测试集上的性能具有高度相关性。4) 重叠分析:分析不同基准测试集签名之间的相似性,从而确定它们之间的重叠程度。5) 性能分析:将签名重叠与模型性能相关联,以验证签名的有效性。

关键创新:该方法的关键创新在于将困惑度作为一种表征基准测试集所需能力的“签名”。与传统的基于语义相似性的方法相比,该方法能够更有效地捕捉基准测试集之间的潜在重叠,并能够识别那些表面上看起来不同但实际上考察相似能力的基准测试集。此外,该方法还能够揭示LLM在不同能力上的表现差异,并为基准测试集的设计提供指导。

关键设计:在签名提取阶段,论文采用了逐步前向选择(Stepwise Forward Selection)和线性回归的方法。具体来说,首先选择一个与基准测试性能相关性最高的token作为初始签名,然后逐步添加其他token,直到签名的预测性能不再显著提高。线性回归用于量化token困惑度与基准测试性能之间的关系。此外,论文还考虑了基准测试集的问题格式等因素对模型性能的影响,并设计了相应的实验来验证签名的鲁棒性。

📊 实验亮点

实验结果表明,该方法能够有效捕捉不同基准测试集之间的重叠关系,并揭示LLM在不同能力上的表现差异。例如,知识和推理子任务之间存在显著重叠,而多语言和文化基准测试的相似性较低。此外,实验还发现,基准测试集的问题格式等因素会对模型性能产生显著影响,但该方法提取的签名对这些因素具有鲁棒性。

🎯 应用场景

该研究成果可应用于LLM基准测试集的改进和设计,帮助构建更具区分度和代表性的基准测试集,从而更准确地评估LLM的能力。此外,该方法还可以用于分析LLM在不同领域的知识和技能,为LLM的训练和优化提供指导。该研究还有助于理解LLM能力之间的相互关系,并为开发更通用和强大的LLM奠定基础。

📄 摘要(原文)

We develop signatures of capacity familiarity to characterize large language model (LLM) benchmarks and their meaningful overlaps. Benchmark signatures probe the capacity required for benchmark performance. We formally define them as a set of salient tokens drawn from in-the-wild, naturally authored corpora, where LLM token perplexity, reflecting more or less pre-training exposure, becomes highly predictive of LLM benchmark performance. Through a large-scale meta-evaluation, we extract benchmark signatures via stepwise forward selection with linear regressions across 32 LLMs and 88 benchmarks spanning diverse knowledge, coding, logic, instruction following, math, language, reasoning, and world modeling. Our analysis situates signatures in relation to both the semantic similarity of benchmark questions and the correlation of model performance. While performance overlaps are universally high and semantic overlaps remain confined to a narrow mid-range, benchmark signatures prove highly informative in capturing variation, overlap, and divergence. We observe overlap in knowledge and reasoning subtasks, whereas multilingual and cultural benchmarks exhibit less similarity, even compared to cross-task overlap. Notably, performance-level results are strongly influenced by benchmark-orthogonal factors such as question format, highlighting limitations in LLM generalization, the conflation of performance with ability, and issues inherent in current mainstream benchmark agreement studies. Benchmark signatures, however, remain robust to such effects. Ultimately, we identify cross-functional overlaps across logic, math, language, instruction following, and world modeling, with coding emerging as the least overlapping domain. Together, these findings provide mechanistic insights into benchmark validity and LLM sensitivities, and sketch the underlying landscape of interconnected LLM capabilities.