An Interpretable and Scalable Framework for Evaluating Large Language Models

📄 arXiv: 2605.07046v1 📥 PDF

作者: Xinhao Qu, Qiang Heng, Hao Zeng, Xiaoqian Liu

分类: stat.ML, cs.AI, cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出基于Majorization-Minimization的IRT评估框架,实现大模型能力评估的可解释性与高效扩展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大模型评估 项目反应理论 矩阵分解 Majorization-Minimization 可解释AI 基准测试

📋 核心要点

  1. 现有评估方法过度依赖平均准确率,未能充分考虑LLM输出的随机性与测试项的异质性,导致评估结果缺乏深度。
  2. 引入Majorization-Minimization原则,将IRT参数估计转化为高效的矩阵分解子问题,解决了传统方法计算开销大与数值不稳定的难题。
  3. 实验证明该框架在保持高精度的前提下,实现了数量级的计算加速,并能有效刻画模型能力与题目特征,符合缩放定律。

📝 摘要(中文)

大语言模型(LLM)的评估至关重要,但现有的基准测试方法多依赖平均准确率,忽略了LLM输出的随机性及测试项的异质性。项目反应理论(IRT)虽为建模潜在模型能力和题目特征提供了原则性框架,但传统方法计算成本高且数值不稳定,限制了其在大规模场景下的应用。为此,本文提出了一种基于Majorization-Minimization(MM)原则的LLM评估框架。该方法将评估问题重构为一系列受约束的矩阵分解子问题,实现了参数估计的稳定与高效,并具备可识别性和收敛性的理论保证。在合成数据集及MATH-500、Open LLM Leaderboard等真实数据集上的实验表明,该方法在保持高估计精度的同时,实现了数量级的速度提升,并能有效揭示题目难度与区分度,为更科学的基准测试设计提供了洞见。

🔬 方法详解

问题定义:现有LLM评估主要依赖简单的平均准确率,无法区分模型能力的细微差异,也无法量化测试题目的难度与区分度。传统的IRT模型虽然能解决该问题,但其参数估计过程通常涉及复杂的非凸优化,导致在大规模数据集上计算极其缓慢且极易陷入局部最优。

核心思路:论文利用Majorization-Minimization(MM)算法将复杂的IRT似然函数优化问题转化为一系列更易求解的凸优化子问题。通过将模型能力与题目特征建模为矩阵分解形式,利用MM算法的单调递减特性,确保了估计过程的数值稳定性与收敛性。

技术框架:整体框架分为数据预处理、矩阵分解建模、MM迭代求解三个阶段。首先将模型回答结果构建为稀疏矩阵,随后通过MM算法交替更新模型能力参数与题目特征参数(难度、区分度),最后通过收敛性判定输出评估结果。

关键创新:最重要的创新在于将IRT参数估计问题重构为受约束的矩阵分解,通过MM原则避免了传统方法中高昂的二阶导数计算(如Hessian矩阵),从而实现了在大规模基准测试上的高效扩展。

关键设计:采用了特定的约束条件以保证参数的可识别性(Identifiability),并设计了高效的迭代更新规则,使得算法在处理大规模稀疏矩阵时表现出极高的计算效率,同时在理论上保证了算法的全局收敛性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,该方法在MATH-500及Open LLM Leaderboard等基准上,相比传统IRT求解器实现了数量级的计算加速。在保持与基线方法相当甚至更高的估计精度下,该框架成功揭示了模型能力与题目特征之间的内在联系,验证了其在处理大规模、高维度评估数据时的卓越性能与稳定性。

🎯 应用场景

该框架可广泛应用于大语言模型评估平台、自动化基准测试系统及模型选型场景。通过提供模型能力与题目特征的细粒度分析,它能帮助研究人员识别模型在特定知识领域的短板,指导更科学的测试集构建,并为企业在模型部署前的性能评估提供可解释的量化依据。

📄 摘要(原文)

Evaluation of large language models (LLMs) is increasingly critical, yet standard benchmarking methods rely on average accuracy, overlooking both the inherent stochasticity of LLM outputs and the heterogeneity of benchmark items. Item Response Theory (IRT) offers a principled framework for modeling latent model abilities and item characteristics, but conventional methods are computationally expensive and numerically unstable, limiting large-scale implementations. To address these challenges, we propose an interpretable and scalable framework for LLM evaluation based on the majorization-minimization principle. Our approach reformulates the problem as a sequence of constrained matrix factorization subproblems, enabling stable and efficient parameter estimation with theoretical guarantees for identifiability and convergence. Experiments on synthetic and real-world datasets, including MATH-500 and six Open LLM Leaderboard benchmarks, demonstrate that our method achieves superior scalability and interpretability. It delivers orders-of-magnitude speedups over competing methods while maintaining comparable or even higher estimation accuracy. Our results align with established scaling laws and offer insights into item difficulty and discrimination, informing more principled benchmark design.