Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks

📄 arXiv: 2511.04689v2 📥 PDF

作者: Peiyu Li, Xiuxiu Tang, Si Chen, Ying Cheng, Ronald Metoyer, Ting Hua, Nitesh V. Chawla

分类: cs.CL, cs.AI

发布日期: 2025-10-26 (更新: 2026-02-02)

备注: Code and calibrated item banks are available at https://github.com/Peiyu-Georgia-Li/ATLAS.git

🔗 代码/项目: GITHUB


💡 一句话要点

提出ATLAS自适应测试框架,高效评估大语言模型能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 自适应测试 项目反应理论 Fisher信息 模型能力评估

📋 核心要点

  1. 现有LLM评估依赖大量静态基准测试,效率低且成本高,未能充分考虑测试项的难度和区分度。
  2. ATLAS利用项目反应理论(IRT)和Fisher信息,自适应选择最具信息量的测试项,高效评估模型能力。
  3. 实验表明,ATLAS能显著减少测试项数量(高达90%),同时保持评估精度,并能更精细地区分模型能力。

📝 摘要(中文)

评估大型语言模型(LLM)通常需要数千个基准测试项,这使得评估过程成本高昂、速度慢,并且在规模上越来越不切实际。现有的评估协议依赖于固定项目集上的平均准确率,尽管项目难度和区分度存在显著差异,但将所有项目视为同等信息量。我们引入了ATLAS,这是一个基于项目反应理论(IRT)的自适应测试框架,它使用Fisher信息引导的项目选择来估计模型能力。ATLAS在保持测量精度的同时,最多可减少90%的所需项目数量。例如,在HellaSwag(5,600个项目)上,它仅使用41个项目(0.157 MAE)即可匹配整个项目库的能力估计。我们进一步从ATLAS的能力估计中重建准确率,发现重建的准确率与所有五个基准测试中的原始准确率非常匹配,表明能力$θ$保留了全局性能结构。同时,$θ$提供了准确率等效模型中更精细的区分:在超过3,000个评估模型中,23-31%的模型排名变化超过10位,并且具有相同准确率的模型获得了有意义的不同能力估计。

🔬 方法详解

问题定义:现有的大语言模型评估方法主要依赖于在固定的、大规模的基准数据集上计算平均准确率。这种方法存在几个痛点:一是评估成本高昂,需要大量的人力和计算资源;二是效率低下,所有测试样本都被同等对待,忽略了不同样本的难度和区分度;三是无法精细地区分能力相近的模型,因为平均准确率可能掩盖了模型在不同难度样本上的表现差异。

核心思路:ATLAS的核心思路是采用自适应测试的方法,根据模型在已测试项目上的表现,动态地选择下一个最具信息量的测试项目。这借鉴了心理测量学中的项目反应理论(IRT),该理论认为每个测试项目都有其难度和区分度,而模型的表现则反映了其潜在的能力。通过不断选择能够最大程度提供关于模型能力信息的项目,可以显著减少所需的测试项目数量,同时保持评估的准确性。

技术框架:ATLAS的整体框架包含以下几个主要步骤:1) 项目校准:首先,需要对基准测试集中的所有项目进行校准,估计每个项目的难度和区分度参数。这通常使用IRT模型和已有的模型表现数据来完成。2) 项目选择:在评估过程中,ATLAS根据模型在已测试项目上的表现,使用Fisher信息准则选择下一个最具信息量的项目。Fisher信息衡量了项目能够提供关于模型能力的信息量。3) 能力估计:在完成一定数量的测试项目后,ATLAS使用IRT模型估计模型的潜在能力值。4) 准确率重建:可选地,可以根据估计的能力值和项目参数,重建模型在整个基准测试集上的准确率,以验证自适应测试的有效性。

关键创新:ATLAS的关键创新在于将项目反应理论(IRT)引入到大语言模型的评估中,并提出了基于Fisher信息的自适应项目选择策略。与传统的静态基准测试相比,ATLAS能够根据模型的实际表现动态调整测试内容,从而更高效地评估模型的能力。此外,ATLAS还能够提供更精细的模型能力区分,即使模型的平均准确率相同,ATLAS也能通过能力值来区分它们在不同难度样本上的表现差异。

关键设计:ATLAS的关键设计包括:1) IRT模型选择:论文中使用了合适的IRT模型(具体模型未知)来对项目进行校准和能力估计。2) Fisher信息计算:论文中使用了Fisher信息来衡量每个项目能够提供的信息量,并以此作为项目选择的依据。3) 停止准则:论文中需要定义一个停止准则,以确定何时停止自适应测试。这可能基于能力估计的置信区间宽度或测试项目数量等指标。(具体细节未知)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ATLAS在多个基准测试中表现出色,例如在HellaSwag数据集上,仅使用41个项目(占总数的0.7%)即可达到与使用全部5600个项目相当的评估精度(MAE为0.157)。此外,ATLAS能够更精细地区分模型能力,在超过3000个评估模型中,23-31%的模型排名变化超过10位,表明ATLAS能够有效区分准确率相近的模型。

🎯 应用场景

ATLAS可应用于大语言模型的快速评估和比较,尤其是在模型数量庞大或计算资源有限的情况下。它能帮助研究人员和开发者更高效地识别优秀模型,并深入了解模型在不同难度任务上的表现。此外,ATLAS还可用于构建个性化的模型评估系统,根据用户的特定需求和偏好,定制评估内容和标准。

📄 摘要(原文)

Evaluating large language models (LLMs) typically requires thousands of benchmark items, making the process expensive, slow, and increasingly impractical at scale. Existing evaluation protocols rely on average accuracy over fixed item sets, treating all items as equally informative despite substantial variation in difficulty and discrimination. We introduce ATLAS, an adaptive testing framework based on Item Response Theory (IRT) that estimates model ability using Fisher information-guided item selection. ATLAS reduces the number of required items by up to 90% while maintaining measurement precision. For instance, it matches whole-bank ability estimates using only 41 items (0.157 MAE) on HellaSwag (5,600 items). We further reconstruct accuracy from ATLAS's ability estimates and find that reconstructed accuracies closely match raw accuracies across all five benchmarks, indicating that ability $θ$ preserves the global performance structure. At the same time, $θ$ provides finer discrimination within accuracy-equivalent models: among more than 3,000 evaluated models, 23-31% shift by more than 10 rank positions, and models with identical accuracies receive meaningfully different ability estimates. Code and calibrated item banks are available at https://github.com/Peiyu-Georgia-Li/ATLAS.git.