GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs?

📄 arXiv: 2412.10056v1 📥 PDF

作者: Zhikai Lei, Tianyi Liang, Hanglei Hu, Jin Zhang, Yunhua Zhou, Yunfan Shao, Linyang Li, Chenchui Li, Changbo Wang, Hang Yan, Qipeng Guo

分类: cs.CL, cs.AI

发布日期: 2024-12-13

备注: 10 pages, 13 figures


💡 一句话要点

提出GAOKAO-Eval以评估LLMs真实能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 能力评估 高考基准 Rasch模型 数据泄露 教育技术 人机交互

📋 核心要点

  1. 现有的LLMs评估方法依赖于人工设计的基准,可能导致高分并不代表真实能力,尤其在简单任务上表现不佳。
  2. 本文提出GAOKAO-Eval基准,通过高考题目进行闭卷评估,旨在更准确地评估LLMs的能力。
  3. 实验结果显示,GAOKAO-Eval揭示了LLMs在不同难度问题上的表现不一致,强调了对能力评估方法的重新审视。

📝 摘要(中文)

大型语言模型(LLMs)通常通过人工设计的基准进行评估,假设高分意味着更强的人类表现。然而,越来越多的研究表明,LLMs可能会因数据泄露而“游戏”这些基准,尽管得分高,但在简单任务上却表现不佳。为此,本文创建了GAOKAO-Eval,一个基于中国高考的综合性基准,并对在高考前发布的代表性模型进行了“闭卷”评估。结果显示,即使在解决数据泄露和全面性问题后,高分仍未能真实反映人类对齐的能力。为深入理解这种不匹配,本文引入了认知心理学中的Rasch模型,分析LLM评分模式,并识别出两个关键差异:1)在不同难度问题上的异常一致表现,2)在相似难度问题上的高方差表现。此外,教师对LLM生成答案的评分不一致以及重复错误模式也被识别。研究表明,这些现象与OpenAI的动机密切相关,且其推理作为难度的策略可以缓解这种不匹配。GAOKAO-Eval揭示了当前基准未能捕捉的LLM能力局限性,强调了对LLM对齐难度分析的需求。

🔬 方法详解

问题定义:本文旨在解决现有LLMs评估方法的不足,尤其是高分未必反映真实能力的问题。现有方法容易受到数据泄露的影响,导致评估结果失真。

核心思路:通过创建GAOKAO-Eval基准,利用中国高考题目进行闭卷评估,以更全面和真实地反映LLMs的能力。引入Rasch模型分析评分模式,揭示能力评估中的潜在问题。

技术框架:GAOKAO-Eval的整体架构包括题目设计、模型评估和数据分析三个主要模块。首先,设计高考题目作为基准;其次,对代表性LLMs进行闭卷测试;最后,利用Rasch模型分析评分结果。

关键创新:最重要的创新在于引入Rasch模型分析LLMs的评分模式,识别出在不同难度问题上的表现不一致和相似难度问题的高方差表现,这在现有评估方法中尚未得到充分关注。

关键设计:在GAOKAO-Eval中,题目设计注重覆盖不同难度,评分标准则考虑教师对LLM生成答案的主观评分差异,确保评估的全面性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GAOKAO-Eval的实验结果显示,即使在解决数据泄露问题后,LLMs的高分仍未能真实反映其能力。分析表明,存在在不同难度问题上的一致性表现异常和相似难度问题的高方差现象,强调了对能力评估方法的重新审视。

🎯 应用场景

GAOKAO-Eval的研究成果可广泛应用于教育技术、人工智能评估和人机交互等领域。通过更准确的能力评估,教育工作者和研究人员可以更好地理解和改进LLMs的设计与应用,推动智能教育的发展。

📄 摘要(原文)

Large Language Models (LLMs) are commonly evaluated using human-crafted benchmarks, under the premise that higher scores implicitly reflect stronger human-like performance. However, there is growing concern that LLMs may game" these benchmarks due to data leakage, achieving high scores while struggling with tasks simple for humans. To substantively address the problem, we create GAOKAO-Eval, a comprehensive benchmark based on China's National College Entrance Examination (Gaokao), and conductclosed-book" evaluations for representative models released prior to Gaokao. Contrary to prevailing consensus, even after addressing data leakage and comprehensiveness, GAOKAO-Eval reveals that high scores still fail to truly reflect human-aligned capabilities. To better understand this mismatch, We introduce the Rasch model from cognitive psychology to analyze LLM scoring patterns and identify two key discrepancies: 1) anomalous consistent performance across various question difficulties, and 2) high variance in performance on questions of similar difficulty. In addition, We identified inconsistent grading of LLM-generated answers among teachers and recurring mistake patterns. we find that the phenomenons are well-grounded in the motivations behind OpenAI o1, and o1's reasoning-as-difficulties can mitigate the mismatch. These results show that GAOKAO-Eval can reveal limitations in LLM capabilities not captured by current benchmarks and highlight the need for more LLM-aligned difficulty analysis.