Latent Performance Profiling of Large Language Models

📄 arXiv: 2605.30018v1 📥 PDF

作者: Tanmoy Chakraborty, Ayan Sengupta, Suparna Bhattacharya, Partha Pratim Chakrabarti, Amlan Chakrabarti, Supratik Chakraborty, Partha Pratim Das, Lipika Dey, Richa Singh, Mayank Vatsa

分类: cs.CL, cs.LG

发布日期: 2026-05-28


💡 一句话要点

提出潜变量性能剖析(LPP)框架,用于从模型内部状态评估大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 性能评估 内在评估 潜变量分析 模型诊断

📋 核心要点

  1. 现有LLM评估主要依赖基准测试,但存在数据污染、任务范围窄和与实际应用脱节等问题。
  2. LPP框架通过分析LLM的隐藏层激活和输出分布,提取任务无关的诊断信息,实现内在评估。
  3. 实验表明,即使基准分数相似的模型,其LPP特征也可能差异显著,揭示了模型内部运作的差异。

📝 摘要(中文)

大型语言模型(LLM)在标准化基准测试中通常能取得令人印象深刻的分数,但仅凭准确率无法全面了解其能力。通过排行榜评估开源LLM面临数据污染、任务范围狭窄以及与现实世界可靠性弱对齐等问题。诸如MMLU PRO、BBH或IFEval等基于基准的评估主要捕获模型在固定测试集上的 extit{输出结果},而不是它 extit{如何}处理信息、校准不确定性或构建内部知识。本文提倡从以基准为中心的评估转向对LLM进行互补的、 extit{以状态为中心的内在评估}。为此,我们引入了 extbf{潜变量性能剖析(LPP)}——一个从隐藏激活和输出分布中导出任务无关诊断的框架。LPP在模型的潜在表示和动态上定义了一组标量指标,揭示了与规模无关的特征,从而实现可解释的比较并揭示隐藏的漏洞。与静态准确率分数不同,LPP提供了跨相似大小模型的稳定、架构敏感的签名。通过对八个LLM(规模范围为0.5B-14B)的广泛实证分析,我们证明了具有相似基准分数的模型可以表现出对比鲜明的潜在特征,例如熵或适应性的差异。在这些见解的指导下,我们设计了用于不确定性和符号推理的合成探针,这些探针与内在指标对齐,同时与排行榜偏差分离。我们建议,在报告基准测试的同时报告LPP,可以更深入、可解释地理解模型行为,从而实现更可靠的模型选择、安全评估以及超越表面准确率的评估。

🔬 方法详解

问题定义:现有的大语言模型评估方法,如MMLU PRO、BBH等,主要关注模型在特定基准测试集上的准确率,而忽略了模型内部如何处理信息、校准不确定性以及构建知识。这些基于基准的评估容易受到数据污染的影响,且任务范围有限,难以反映模型在真实世界中的可靠性。因此,需要一种更内在、更全面的评估方法,能够揭示模型内部的运作机制和潜在的弱点。

核心思路:LPP的核心思路是通过分析大语言模型在处理任务时的隐藏层激活和输出分布,提取与任务无关的诊断信息。这些信息反映了模型内部的状态和动态,可以用来评估模型的性能、稳定性和安全性。LPP旨在提供一种补充基准测试的评估方法,帮助研究人员更深入地理解模型的行为,并发现潜在的漏洞。

技术框架:LPP框架主要包含以下几个步骤:1) 选择一组具有代表性的输入样本;2) 使用大语言模型处理这些样本,并记录模型在各个隐藏层的激活值和输出分布;3) 基于这些激活值和输出分布,计算一系列标量指标,如熵、适应性等;4) 分析这些指标,以评估模型的性能、稳定性和安全性。这些指标构成了一个模型的“潜在性能剖面”,可以用于比较不同模型之间的差异,并发现潜在的漏洞。

关键创新:LPP的关键创新在于它提供了一种任务无关的、内在的评估方法。与传统的基于基准的评估方法不同,LPP不依赖于特定的测试集,而是直接分析模型的内部状态。这使得LPP能够揭示模型在处理各种任务时的共性特征,并发现潜在的漏洞。此外,LPP还提供了一种可解释的评估结果,可以帮助研究人员更好地理解模型的行为。

关键设计:LPP的关键设计包括:1) 选择合适的标量指标来表征模型的内部状态,例如熵可以反映模型输出的不确定性,适应性可以反映模型对不同输入的敏感程度;2) 设计合成探针,用于评估模型在特定方面的能力,例如不确定性校准和符号推理;3) 使用统计方法分析LPP指标,以识别不同模型之间的差异,并发现潜在的漏洞。具体参数设置和网络结构取决于所评估的大语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在基准测试中表现相似的模型,其LPP特征也可能存在显著差异,例如在熵和适应性方面。通过LPP,研究人员能够发现模型在不确定性校准和符号推理等方面的潜在弱点。例如,某些模型可能在处理特定类型的输入时表现出异常高的熵,表明其对这些输入的不确定性较高。

🎯 应用场景

LPP可应用于大语言模型的安全评估、模型选择和优化。通过分析模型的潜在性能剖面,可以识别潜在的漏洞和风险,从而提高模型的安全性和可靠性。此外,LPP还可以帮助研究人员更好地理解模型的行为,从而指导模型的优化和改进。该方法在金融、医疗等对模型可靠性要求高的领域具有重要应用价值。

📄 摘要(原文)

Large language models (LLMs) frequently achieve impressive scores on standardized benchmarks, yet accuracy alone offers a limited view of their capabilities. Evaluating open-source LLMs through leaderboards faces persistent issues like data contamination, narrow task scope, and weak alignment with real-world reliability. Benchmark-based evaluations such as MMLU PRO, BBH, or IFEval primarily capture \textit{what} a model outputs on fixed test sets, not \textit{how} it processes information, calibrates uncertainty, or structures internal knowledge. In this article, we advocate for a shift from benchmark-centric evaluation toward a complementary, \textit{state-centered intrinsic assessment} of LLMs. To this end, we introduce \textbf{Latent Performance Profiling (LPP)} -- a framework that derives task-agnostic diagnostics from hidden activations and output distributions. LPP defines a set of scalar metrics on a model's latent representations and dynamics, revealing scale-independent traits that enable interpretable comparisons and uncover hidden vulnerabilities. Unlike static accuracy scores, LPP provides stable, architecture-sensitive signatures across models of similar size. With extensive empirical analyses across eight LLMs, spanning a size range of 0.5B-14B, we demonstrate that models with similar benchmark scores can exhibit contrasting latent profiles, such as differences in entropy or adaptability. Guided by these insights, we design synthetic probes for uncertainty and symbolic reasoning that align with intrinsic metrics while decoupling from leaderboard bias. We recommend that reporting LPP alongside benchmarks provides a deeper, interpretable understanding of model behavior, enabling more reliable model selection, safety assessment, and evaluation beyond surface-level accuracy.