Uncovering Competency Gaps in Large Language Models and Their Benchmarks

📄 arXiv: 2512.20638v1 📥 PDF

作者: Matyas Bohacek, Nino Scherrer, Nicholas Dufour, Thomas Leung, Christoph Bregler, Stephanie C. Y. Chan

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-06


💡 一句话要点

利用稀疏自编码器揭示大语言模型及其基准测试中的能力差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 稀疏自编码器 能力差距分析 基准测试偏差 概念表示学习

📋 核心要点

  1. 现有大语言模型评估依赖聚合指标,无法揭示模型在特定概念上的弱点和基准测试覆盖范围的不平衡。
  2. 提出一种基于稀疏自编码器(SAE)的方法,通过分析模型内部表示来发现模型和基准测试中的能力差距。
  3. 实验表明,该方法能自动发现模型在特定概念(如拒绝请求、安全讨论)上的不足,并识别基准测试中概念覆盖的偏差。

📝 摘要(中文)

大语言模型(LLM)的评估严重依赖于标准化基准测试。这些基准测试为特定能力提供了有用的聚合指标,但这些指标可能会掩盖(i)LLM表现薄弱的特定子领域(“模型差距”)和(ii)基准测试本身的不平衡覆盖(“基准差距”)。我们提出了一种新方法,该方法使用稀疏自编码器(SAE)来自动发现这两种类型的差距。通过提取SAE概念激活并计算基准数据上显着性加权的性能分数,该方法将评估建立在模型的内部表示上,并能够跨基准进行比较。作为演示我们方法的示例,我们将该方法应用于两个流行的开源模型和十个基准测试。我们发现,这些模型在与谄媚行为形成对比的概念(例如,礼貌地拒绝请求或声明界限)以及与安全讨论相关的概念上始终表现不佳。这些模型差距与先前文献中出现的观察结果一致;我们的自动化、无监督方法能够无需人工监督即可恢复它们。我们还观察到基准差距:许多评估的基准测试过度代表了与服从、权威或遵循指令相关的概念,而缺少了应属于其预期范围内的核心概念。总而言之,我们的方法提供了一种基于表示的评估方法,可以对基准分数进行概念级别的分解。CG不是取代传统的聚合指标,而是通过提供概念级别的分解来补充它们,从而可以揭示模型得分的原因以及基准测试如何发展以更好地反映其预期范围。代码可在https://competency-gaps.github.io上找到。

🔬 方法详解

问题定义:现有的大语言模型评估方法主要依赖于聚合的基准测试指标,这些指标虽然能提供整体性能的概览,但无法揭示模型在特定概念或子任务上的弱点。同时,基准测试本身可能存在偏差,过度关注某些概念而忽略其他重要概念,导致评估结果失真。因此,需要一种更细粒度的评估方法,能够深入了解模型在不同概念上的表现,并识别基准测试的覆盖范围问题。

核心思路:本文的核心思路是利用稀疏自编码器(SAE)来提取大语言模型内部的概念表示,并基于这些概念表示来评估模型在不同基准测试上的表现。通过分析SAE激活和计算显着性加权的性能分数,可以将评估结果分解到概念层面,从而揭示模型在哪些概念上表现不佳,以及基准测试在哪些概念上存在偏差。这种方法无需人工标注,能够自动发现模型和基准测试中的能力差距。

技术框架:该方法主要包含以下几个步骤:1) 使用稀疏自编码器(SAE)对大语言模型的内部表示进行训练,提取概念激活。2) 对于每个基准测试,计算每个概念的显着性权重,反映该概念对基准测试结果的影响程度。3) 基于概念激活和显着性权重,计算模型在每个概念上的性能分数。4) 分析概念性能分数,识别模型表现不佳的概念(模型差距)和基准测试覆盖不足的概念(基准差距)。

关键创新:该方法最重要的创新点在于它提供了一种基于模型内部表示的评估方法,能够将基准测试结果分解到概念层面。与传统的聚合指标相比,这种方法能够更细粒度地了解模型的优缺点,并识别基准测试的偏差。此外,该方法是无监督的,无需人工标注,可以自动发现模型和基准测试中的能力差距。

关键设计:SAE的训练目标是最小化重构误差,同时鼓励稀疏性。稀疏性约束可以通过L1正则化来实现。概念的显着性权重可以通过计算概念激活与基准测试结果之间的相关性来估计。性能分数可以通过将概念激活与显着性权重相乘并求和来计算。具体的参数设置和网络结构取决于所使用的大语言模型和基准测试。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够自动发现模型在与谄媚行为相反的概念(如拒绝请求)和与安全讨论相关的概念上的不足。同时,该方法还揭示了许多基准测试过度代表了与服从、权威或遵循指令相关的概念,而缺少了应属于其预期范围内的核心概念。这些发现与现有文献中的观察结果一致,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于大语言模型的安全性和可靠性评估,帮助开发者识别模型在特定概念上的弱点,并改进模型的训练数据和架构。此外,该方法还可以用于改进基准测试的设计,使其更全面地覆盖各种概念,从而更准确地评估模型的性能。该研究有助于提升大语言模型在实际应用中的表现和安全性。

📄 摘要(原文)

The evaluation of large language models (LLMs) relies heavily on standardized benchmarks. These benchmarks provide useful aggregated metrics for a given capability, but those aggregated metrics can obscure (i) particular sub-areas where the LLMs are weak ("model gaps") and (ii) imbalanced coverage in the benchmarks themselves ("benchmark gaps"). We propose a new method that uses sparse autoencoders (SAEs) to automatically uncover both types of gaps. By extracting SAE concept activations and computing saliency-weighted performance scores across benchmark data, the method grounds evaluation in the model's internal representations and enables comparison across benchmarks. As examples demonstrating our approach, we applied the method to two popular open-source models and ten benchmarks. We found that these models consistently underperformed on concepts that stand in contrast to sycophantic behaviors (e.g., politely refusing a request or asserting boundaries) and concepts connected to safety discussions. These model gaps align with observations previously surfaced in the literature; our automated, unsupervised method was able to recover them without manual supervision. We also observed benchmark gaps: many of the evaluated benchmarks over-represented concepts related to obedience, authority, or instruction-following, while missing core concepts that should fall within their intended scope. In sum, our method offers a representation-grounded approach to evaluation, enabling concept-level decomposition of benchmark scores. Rather than replacing conventional aggregated metrics, CG complements them by providing a concept-level decomposition that can reveal why a model scored as it did and how benchmarks could evolve to better reflect their intended scope. Code is available at https://competency-gaps.github.io.