Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension?

📄 arXiv: 2507.08232v1 📥 PDF

作者: KV Aditya Srivatsa, Kaushal Kumar Maurya, Ekaterina Kochmar

分类: cs.CL, cs.AI

发布日期: 2025-07-11

备注: Accepted to the 20th Workshop on Innovative Use of NLP for Building Educational Applications (BEA), co-located with ACL 2025


💡 一句话要点

利用大规模语言模型模拟学生能力,评估其在智能辅导系统中的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 智能辅导系统 项目反应理论 学生能力模拟 教育评估

📋 核心要点

  1. 现有智能辅导系统依赖LLM模拟学生,但缺乏对LLM模拟真实学生能力的可靠性评估。
  2. 论文利用项目反应理论,将LLM在NAEP数据集上的表现与真实学生的能力进行对齐和比较。
  3. 实验表明,通用LLM通常优于平均学生,而特定提示虽能调整性能,但难以稳定匹配特定年级学生。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用作智能辅导系统(ITS)开发和测试题试点的代理学生。然而,这些代理学生在多大程度上准确地模拟了真实学生的行为和特征仍然是一个悬而未决的问题。为了研究这个问题,我们收集了来自美国国家教育进展评估(NAEP)的489个项目的数据集,涵盖了4、8和12年级的数学和阅读理解。然后,我们应用项目反应理论(IRT)模型,将11个不同且最先进的LLM置于与真实学生群体相同的能力等级上。我们的研究结果表明,在没有指导的情况下,强大的通用模型始终优于每个年级的平均水平,而较弱或领域不匹配的模型可能会偶然对齐。使用年级强制提示会改变模型的性能,但它们是否与平均年级水平的学生对齐仍然高度依赖于模型和提示:没有评估的模型-提示对能够跨学科和年级满足要求,这突显了对新的训练和评估策略的需求。最后,我们根据我们的发现,为选择可行的代理提供了指导。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在模拟真实学生在数学和阅读理解方面的能力时,其可靠性如何。现有方法缺乏对LLM作为代理学生有效性的系统性评估,无法保证智能辅导系统基于LLM的反馈能够准确反映真实学生的学习情况。

核心思路:论文的核心思路是利用项目反应理论(IRT),将LLM在标准化测试(NAEP)中的表现映射到与真实学生相同的能力等级上。通过比较LLM和真实学生在同一能力等级上的表现,可以评估LLM模拟学生能力的准确性。此外,通过调整提示词,探索能否使LLM更好地匹配特定年级的学生能力。

技术框架:整体流程包括以下几个阶段:1) 数据收集:从NAEP收集涵盖4、8和12年级的数学和阅读理解题目。2) LLM推理:使用不同的LLM对收集到的题目进行解答,并记录其答案。3) IRT建模:使用IRT模型对LLM和真实学生的答案进行建模,将它们置于同一能力等级上。4) 性能评估:比较LLM和真实学生在同一能力等级上的表现,评估LLM模拟学生能力的准确性。5) 提示词调整:通过调整提示词,尝试使LLM更好地匹配特定年级的学生能力。

关键创新:论文的关键创新在于:1) 系统性地评估了多种LLM在模拟学生能力方面的可靠性。2) 使用项目反应理论(IRT)将LLM和真实学生置于同一能力等级上,从而可以进行更准确的比较。3) 探索了提示词调整对LLM性能的影响,并提出了选择可行代理的指导方针。

关键设计:论文的关键设计包括:1) 选择了具有代表性的NAEP数据集,涵盖了不同年级和学科。2) 选择了多种不同架构和规模的LLM,以评估不同模型的性能。3) 使用了标准的IRT模型进行能力等级的映射。4) 设计了不同的提示词,以探索提示词对LLM性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,未经指导的强大通用LLM通常优于每个年级的平均学生水平。虽然通过年级强制提示可以改变模型的表现,但要使其与平均年级水平的学生对齐,结果高度依赖于具体的模型和提示。没有一个被评估的模型-提示组合能够在所有科目和年级都表现良好,这突显了需要新的训练和评估策略。

🎯 应用场景

该研究成果可应用于智能辅导系统的开发,帮助开发者选择更合适的LLM作为代理学生,从而提高辅导系统的有效性和个性化程度。此外,该研究还可以用于评估教育测试题的难度和区分度,以及探索LLM在教育领域的其他应用。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used as proxy students in the development of Intelligent Tutoring Systems (ITSs) and in piloting test questions. However, to what extent these proxy students accurately emulate the behavior and characteristics of real students remains an open question. To investigate this, we collected a dataset of 489 items from the National Assessment of Educational Progress (NAEP), covering mathematics and reading comprehension in grades 4, 8, and 12. We then apply an Item Response Theory (IRT) model to position 11 diverse and state-of-the-art LLMs on the same ability scale as real student populations. Our findings reveal that, without guidance, strong general-purpose models consistently outperform the average student at every grade, while weaker or domain-mismatched models may align incidentally. Using grade-enforcement prompts changes models' performance, but whether they align with the average grade-level student remains highly model- and prompt-specific: no evaluated model-prompt pair fits the bill across subjects and grades, underscoring the need for new training and evaluation strategies. We conclude by providing guidelines for the selection of viable proxies based on our findings.