Mapping Overlaps in Benchmarks through Perplexity in the Wild

📄 arXiv: 2509.23488v3 📥 PDF

作者: Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans

分类: cs.AI, cs.CL

发布日期: 2025-09-27 (更新: 2025-11-03)


💡 一句话要点

通过困惑度分析,揭示大语言模型评测基准的重叠与差异

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 评测基准 困惑度 能力评估 基准重叠 模型泛化 元学习 自然语言处理

📋 核心要点

  1. 现有LLM评测基准存在重叠和冗余,难以准确评估模型能力。
  2. 提出基于困惑度的基准特征,通过分析LLM在自然语料上的困惑度与基准性能的相关性,揭示基准间的关系。
  3. 实验表明,该方法能有效捕捉基准间的重叠与差异,并发现不同能力领域间的关联。

📝 摘要(中文)

本文提出了一种基于容量熟悉度特征的方法,用于刻画大型语言模型(LLM)评测基准及其有意义的重叠。基准特征探测了基准性能所需的容量。我们将其正式定义为一组从自然语料库中提取的显著token,其中LLM token困惑度(反映了预训练的暴露程度)高度预测LLM基准性能。通过大规模的元评估,我们使用逐步前向选择和线性回归,在32个LLM和88个涵盖知识、编码、逻辑、指令跟随、数学、语言、推理和世界建模等不同领域的基准上提取基准特征。我们的分析将特征与基准问题的语义相似性和模型性能的相关性联系起来。虽然性能重叠普遍较高,语义重叠仍然局限于一个狭窄的中间范围,但基准特征在捕捉变化、重叠和差异方面非常有效。我们观察到知识和推理子任务的重叠,而多语言和文化基准表现出较少的相似性,甚至低于跨任务重叠。值得注意的是,性能层面的结果受到基准正交因素(如问题格式)的强烈影响,突出了LLM泛化的局限性,性能与能力的混淆,以及当前主流基准一致性研究中固有的问题。然而,基准特征对这些影响具有鲁棒性。最终,我们识别出逻辑、数学、语言、指令跟随和世界建模之间的跨功能重叠,而编码是最少重叠的领域。总之,这些发现为基准有效性和LLM敏感性提供了机制性见解,并勾勒出互联LLM能力的潜在格局。

🔬 方法详解

问题定义:现有的大语言模型评测基准存在着严重的重叠现象,这意味着不同的基准可能测试的是模型相似的能力,导致评估结果的冗余和偏差。同时,现有方法难以有效区分基准之间的细微差异,也无法深入理解不同能力领域之间的关联性。因此,如何准确刻画基准之间的关系,并深入理解LLM的能力边界,是本文要解决的核心问题。

核心思路:本文的核心思路是利用LLM在自然语料上的困惑度(Perplexity)来构建基准的“签名”。困惑度反映了LLM对特定token的熟悉程度,可以理解为模型预训练时接触该token的频率。如果一个基准的性能与某些token的困惑度高度相关,那么这些token就可以作为该基准的特征,从而刻画该基准所考察的能力。通过分析不同基准的特征之间的重叠和差异,可以揭示基准之间的关系。

技术框架:本文的技术框架主要包括以下几个步骤:1) 从自然语料库中选取token;2) 计算LLM在这些token上的困惑度;3) 使用逐步前向选择和线性回归,找到与基准性能高度相关的token集合,作为基准的特征;4) 分析不同基准的特征之间的重叠和差异,以及与基准语义相似性和模型性能相关性的关系。

关键创新:本文最重要的技术创新点在于提出了基于困惑度的基准特征,这种方法能够有效地捕捉基准之间的重叠和差异,并能够深入理解不同能力领域之间的关联性。与传统的基于语义相似性的方法相比,该方法更加鲁棒,能够有效应对问题格式等基准正交因素的影响。

关键设计:在特征提取过程中,作者使用了逐步前向选择的方法,以保证选取的特征具有代表性。同时,作者使用了线性回归模型来建立困惑度与基准性能之间的关系,并使用R-squared作为评价指标。此外,作者还考虑了多种基准正交因素的影响,例如问题格式等,以保证结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于困惑度的基准特征能够有效捕捉基准间的重叠与差异,并发现知识和推理子任务存在重叠,而多语言和文化基准相似性较低。此外,该方法对问题格式等基准正交因素具有鲁棒性,能够更准确地反映LLM的真实能力。

🎯 应用场景

该研究成果可应用于LLM评测基准的优化与构建,帮助研究人员设计更具区分度和代表性的基准,从而更准确地评估LLM的能力。此外,该方法还可以用于分析LLM的优势与不足,指导模型训练和改进,并促进对LLM能力边界的理解。

📄 摘要(原文)

We develop signatures of capacity familiarity to characterize large language model (LLM) benchmarks and their meaningful overlaps. Benchmark signatures probe the capacity required for benchmark performance. We formally define them as a set of salient tokens drawn from in-the-wild, naturally authored corpora, where LLM token perplexity, reflecting more or less pre-training exposure, becomes highly predictive of LLM benchmark performance. Through a large-scale meta-evaluation, we extract benchmark signatures via stepwise forward selection with linear regressions across 32 LLMs and 88 benchmarks spanning diverse knowledge, coding, logic, instruction following, math, language, reasoning, and world modeling. Our analysis situates signatures in relation to both the semantic similarity of benchmark questions and the correlation of model performance. While performance overlaps are universally high and semantic overlaps remain confined to a narrow mid-range, benchmark signatures prove highly informative in capturing variation, overlap, and divergence. We observe overlap in knowledge and reasoning subtasks, whereas multilingual and cultural benchmarks exhibit less similarity, even compared to cross-task overlap. Notably, performance-level results are strongly influenced by benchmark-orthogonal factors such as question format, highlighting limitations in LLM generalization, the conflation of performance with ability, and issues inherent in current mainstream benchmark agreement studies. Benchmark signatures, however, remain robust to such effects. Ultimately, we identify cross-functional overlaps across logic, math, language, instruction following, and world modeling, with coding emerging as the least overlapping domain. Together, these findings provide mechanistic insights into benchmark validity and LLM sensitivities, and sketch the underlying landscape of interconnected LLM capabilities.