Latent Performance Profiling of Large Language Models

📄 arXiv: 2605.30018v2 📥 PDF

作者: Tanmoy Chakraborty, Ayan Sengupta, Suparna Bhattacharya, Partha Pratim Chakrabarti, Amlan Chakrabarti, Supratik Chakraborty, Partha Pratim Das, Lipika Dey, Richa Singh, Mayank Vatsa

分类: cs.CL, cs.LG

发布日期: 2026-05-28 (更新: 2026-05-29)


💡 一句话要点

提出Latent Performance Profiling (LPP),用于从隐空间评估大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 隐空间分析 内在评估 性能剖析 不确定性校准

📋 核心要点

  1. 现有LLM评估过度依赖基准测试,忽略了模型内部状态和处理机制,导致评估结果片面。
  2. LPP通过分析LLM的隐层激活和输出分布,提取任务无关的诊断信息,实现内在评估。
  3. 实验表明,LPP能揭示具有相似基准分数的模型在熵和适应性等方面的差异。

📝 摘要(中文)

大型语言模型(LLM)在标准化基准测试中通常能获得令人印象深刻的分数,但仅凭准确率无法全面了解其能力。通过排行榜评估开源LLM面临数据污染、任务范围狭窄以及与实际可靠性弱对齐等问题。诸如MMLU PRO、BBH或IFEval等基于基准的评估主要捕获模型在固定测试集上的输出,而不是它如何处理信息、校准不确定性或构建内部知识。本文提倡从以基准为中心的评估转向对LLM进行互补的、以状态为中心的内在评估。为此,我们引入了潜在性能分析(Latent Performance Profiling,LPP)——一个从隐藏激活和输出分布中导出任务无关诊断的框架。LPP在模型的潜在表示和动态上定义了一组标量指标,揭示了与规模无关的特征,从而实现可解释的比较并揭示隐藏的漏洞。与静态准确率分数不同,LPP提供了跨相似大小模型的稳定、架构敏感的签名。通过对八个LLM(规模范围为0.5B-14B)的广泛实证分析,我们证明了具有相似基准分数的模型可以表现出对比鲜明的潜在特征,例如熵或适应性的差异。在这些见解的指导下,我们设计了用于不确定性和符号推理的合成探针,这些探针与内在指标对齐,同时与排行榜偏差分离。我们建议,在基准测试之外报告LPP,可以更深入、更可解释地理解模型行为,从而实现更可靠的模型选择、安全评估以及超越表面准确率的评估。

🔬 方法详解

问题定义:现有的大语言模型评估方法主要依赖于在特定基准测试集上的准确率,这种评估方式忽略了模型内部的信息处理过程,无法全面反映模型的真实能力。此外,基准测试容易受到数据污染和任务范围限制的影响,难以评估模型在实际应用中的可靠性。因此,需要一种新的评估方法,能够从模型内部状态出发,更深入地了解模型的行为。

核心思路:LPP的核心思路是通过分析大语言模型在处理任务时的隐层激活和输出分布,提取与任务无关的诊断信息。这些信息可以反映模型的内部知识结构、不确定性校准能力以及信息处理方式。通过对这些信息的分析,可以更全面、深入地了解模型的性能,并发现潜在的漏洞。

技术框架:LPP框架主要包含以下几个步骤: 1. 数据收集:收集模型在处理各种任务时的隐层激活和输出分布数据。 2. 特征提取:从收集到的数据中提取与任务无关的标量指标,例如熵、适应性等。 3. 性能分析:基于提取的指标,对模型的性能进行分析和评估,例如比较不同模型之间的差异,发现模型的潜在漏洞。 4. 探针设计:设计合成探针,用于验证LPP指标的有效性,并进一步了解模型的行为。

关键创新:LPP最重要的创新在于它提供了一种从模型内部状态出发的评估方法,避免了对特定基准测试的过度依赖。通过分析隐层激活和输出分布,LPP能够揭示模型在信息处理、不确定性校准和知识结构等方面的内在特征,从而实现更全面、深入的性能评估。此外,LPP还设计了合成探针,用于验证指标的有效性,并进一步了解模型的行为。

关键设计:LPP的关键设计包括: 1. 标量指标的选择:选择能够反映模型内部状态和信息处理方式的标量指标,例如熵、适应性等。 2. 合成探针的设计:设计能够与内在指标对齐,同时与排行榜偏差分离的合成探针,用于验证指标的有效性。 3. 模型规模的选择:选择不同规模的模型进行实验,以验证LPP的有效性和可扩展性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LPP能够揭示具有相似基准分数的模型在熵和适应性等方面的差异。例如,某些模型在基准测试中表现良好,但在LPP评估中显示出较高的不确定性,表明其泛化能力可能较差。此外,LPP设计的合成探针能够与内在指标对齐,验证了LPP的有效性。

🎯 应用场景

LPP可用于大语言模型的安全评估、模型选择和优化。通过LPP,可以更深入地了解模型的行为,发现潜在的安全风险,并选择更适合特定应用场景的模型。此外,LPP还可以为模型优化提供指导,例如通过调整模型的内部结构或训练方式,提高模型的性能和可靠性。

📄 摘要(原文)

Large language models (LLMs) frequently achieve impressive scores on standardized benchmarks, yet accuracy alone offers a limited view of their capabilities. Evaluating open-source LLMs through leaderboards faces persistent issues like data contamination, narrow task scope, and weak alignment with real-world reliability. Benchmark-based evaluations such as MMLU PRO, BBH, or IFEval primarily capture what a model outputs on fixed test sets, not how it processes information, calibrates uncertainty, or structures internal knowledge. In this article, we advocate for a shift from benchmark-centric evaluation toward a complementary, state-centered intrinsic assessment of LLMs. To this end, we introduce Latent Performance Profiling (LPP) -- a framework that derives task-agnostic diagnostics from hidden activations and output distributions. LPP defines a set of scalar metrics on a model's latent representations and dynamics, revealing scale-independent traits that enable interpretable comparisons and uncover hidden vulnerabilities. Unlike static accuracy scores, LPP provides stable, architecture-sensitive signatures across models of similar size. With extensive empirical analyses across eight LLMs, spanning a size range of 0.5B-14B, we demonstrate that models with similar benchmark scores can exhibit contrasting latent profiles, such as differences in entropy or adaptability. Guided by these insights, we design synthetic probes for uncertainty and symbolic reasoning that align with intrinsic metrics while decoupling from leaderboard bias. We recommend that reporting LPP alongside benchmarks provides a deeper, interpretable understanding of model behavior, enabling more reliable model selection, safety assessment, and evaluation beyond surface-level accuracy.