Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities
作者: Xu Zhang, Xudong Gong, Jiacheng Qin, Qiang Wang, JiaQi Liao, Zhe Wang, Dawei Feng, Bo Ding
分类: cs.AI
发布日期: 2026-04-14
💡 一句话要点
提出认知诊断框架以解决大语言模型评估的细粒度能力问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型评估 认知诊断 细粒度能力 项目反应理论 能力分类法 教育评估 个性化学习
📋 核心要点
- 现有的大语言模型评估方法将多任务表现汇总为单一分数,无法揭示模型在不同能力维度上的细微差异。
- 本文提出了一种认知诊断框架,通过构建能力分类法和使用多维项目反应理论,评估模型在多个细粒度维度上的能力。
- 在对41个模型的评估中,该方法显示出强的标准效度和准确的未见项目预测,AUC值显著高于传统基线。
📝 摘要(中文)
当前对大型语言模型的评估通常将多种任务的表现汇总为单一分数,这掩盖了细粒度能力的差异,限制了针对性的模型改进和能力导向的任务选择。为了解决这一问题,本文提出了一种认知诊断框架,能够在多个细粒度维度上评估模型能力。针对数学领域,构建了一个基于认知理论和领域知识的35维能力分类法。该框架采用多维项目反应理论,通过项目-能力关联矩阵来估计细粒度能力水平,从而预测在未见项目上的表现。经过对41个模型的评估,结果显示该方法具有强的标准效度,能够在基准测试中提供一致的能力估计,并准确预测未见项目的表现,AUC值在基准内范围为0.80至0.89,跨基准范围为0.77至0.86,显著超越了简单基线。该框架在物理、化学和计算机科学等科学领域也表现出一致的诊断性能。
🔬 方法详解
问题定义:本文旨在解决当前大型语言模型评估中存在的能力细粒度差异被忽视的问题。现有方法通过单一分数来评估模型,无法有效指导模型的改进和任务选择。
核心思路:提出了一种认知诊断框架,基于认知理论构建能力分类法,利用多维项目反应理论来评估模型在多个细粒度维度上的能力,从而实现更精准的能力评估和任务匹配。
技术框架:该框架包括能力分类法的构建、项目-能力关联矩阵的设计以及多维项目反应理论的应用。首先,定义能力维度,然后通过模型在不同任务上的表现来估计能力水平。
关键创新:最重要的创新在于构建了一个35维的能力分类法,并通过多维项目反应理论实现了对模型能力的细粒度评估。这种方法与传统的单一分数评估方式本质上不同,能够提供更深入的洞察。
关键设计:在技术细节上,设计了项目-能力关联矩阵,并采用了适应性损失函数来优化模型的能力估计,确保在不同基准测试中保持一致性和准确性。具体的参数设置和网络结构在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的框架在41个模型上的AUC值在基准内范围为0.80至0.89,跨基准范围为0.77至0.86,显著超越了传统的简单基线,证明了该方法在能力评估中的有效性和准确性。
🎯 应用场景
该研究的潜在应用领域包括教育评估、个性化学习和模型选择等。通过细粒度能力评估,教育者可以更有效地针对学生的弱项进行训练,而模型开发者可以根据能力特征选择合适的模型进行特定任务的优化,未来可能对教育和人工智能领域产生深远影响。
📄 摘要(原文)
Current evaluations of large language models aggregate performance across diverse tasks into single scores. This obscures fine-grained ability variation, limiting targeted model improvement and ability-guided selection for specific tasks. Motivated by this gap, we propose a cognitive diagnostic framework that estimates model abilities across multiple fine-grained dimensions. For mathematics, we construct a 35-dimensional ability taxonomy grounded in cognitive theory and domain knowledge. The framework employs multidimensional Item Response Theory with an item-ability association matrix to estimate fine-grained ability levels, which in turn enable prediction of performance on unseen items (questions of benchmark). Evaluated on 41 models, our approach demonstrates strong criterion validity, consistent ability estimates across benchmarks, and accurate prediction of unseen items with AUC ranging from 0.80 to 0.89 within benchmarks and from 0.77 to 0.86 across benchmarks, substantially exceeding trivial baselines. The framework generalizes across scientific domains, producing consistent diagnostic performance in physics (27 dimensions), chemistry (58 dimensions), and computer science (12 dimensions). This work establishes a principled framework for fine-grained assessment of abilities, with potential applications in targeted training, ability-guided model selection, and ability-aware benchmark design.