Estimating Item Difficulty with Large Language Models as Experts

作者: Diana Kolesnikova, Kirill Fedyanin, Abe D. Hofman, Matthieu J. S. Brinkhuis, Maria Bolsinova

分类: stat.ME, cs.AI, cs.LG, stat.AP

发布日期: 2026-05-18

备注: 24 pages, 2 figures, 9 tables

💡 一句话要点

利用大型语言模型作为专家评估项目难度，无需响应数据。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 项目难度估计 自适应学习 零样本学习 少样本学习

📋 核心要点

现有项目难度评估依赖人工或需大量数据，成本高且效率低，限制了新任务的快速部署。
利用大型语言模型（LLM）的知识和推理能力，模拟专家进行项目难度评估，无需响应数据。
实验表明，LLM的难度估计与实际难度有中等到强的相关性，某些配置接近人类专家水平。

📝 摘要（中文）

准确的项目难度估计对于有效的评估和自适应学习至关重要。然而，对于新创建的任务，通常缺乏响应数据。预测试和专家判断成本高昂且速度慢，而机器学习方法通常需要大型标记训练数据集。最近的研究表明，大型语言模型（LLM）可能有所帮助。然而，关于用于模拟专家进行难度估计的启发程序和提示配置的证据有限。本研究通过评估三个现成的LLM作为新创建项目的难度评估者来解决这一差距，无需访问响应数据。该研究使用来自在线学习系统的项目库，检查了小学数学的6个领域，并将经验难度估计作为经验参考。该研究使用了一个全因子设计，交叉了三个因素：判断格式（绝对与成对）、决策类型（硬决策与基于token概率的估计）和提示策略（零样本与少样本）。使用Spearman等级相关性将LLM导出的难度估计与经验难度进行比较。在各个领域中，基于LLM的估计与经验项目难度表现出中等到强的正相关。对于更简单的算术任务，某些配置接近先前研究中人类专家报告的准确度范围的上限。在没有额外改进的情况下，成对比较始终优于绝对判断。然而，当纳入token级别的概率并提供已知经验难度的项目示例时，绝对判断配置也表现出中等到高的对齐。该研究将LLM定位为初始项目校准的有前途的工具，并提供了对有效工作流程配置的见解。

🔬 方法详解

问题定义：论文旨在解决新创建项目缺乏响应数据时，如何快速、低成本地估计项目难度的问题。现有方法，如预测试和专家判断，成本高昂且耗时。传统的机器学习方法需要大量的标注数据进行训练，这对于新项目来说是不可行的。因此，需要一种能够在新项目启动阶段，无需响应数据即可进行难度估计的方法。

核心思路：论文的核心思路是利用大型语言模型（LLM）的知识和推理能力，将其作为领域专家来评估项目难度。通过精心设计的提示（prompt），引导LLM分析项目内容，并输出其对项目难度的判断。这种方法的核心在于如何有效地利用LLM的先验知识，并将其转化为对项目难度的准确估计。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择合适的LLM作为难度评估者；2) 设计不同的提示策略，包括零样本（zero-shot）和少样本（few-shot）学习；3) 采用不同的判断格式，包括绝对判断（直接评估难度）和成对比较（比较两个项目的难度）；4) 利用LLM输出的token概率信息，进行更精细的难度估计；5) 将LLM的难度估计与实际的经验难度进行比较，评估其准确性。

关键创新：该研究的关键创新在于探索了利用LLM进行项目难度估计的可能性，并系统地研究了不同提示策略、判断格式和决策类型对LLM性能的影响。与传统的难度估计方法相比，该方法无需响应数据，降低了成本和时间。此外，该研究还发现，通过结合token概率信息和少样本学习，可以进一步提高LLM的难度估计准确性。

关键设计：研究中使用了全因子设计，交叉了三个关键因素：判断格式（绝对 vs 成对）、决策类型（硬决策 vs token概率）和提示策略（零样本 vs 少样本）。对于少样本学习，研究者提供了带有已知经验难度的项目示例。对于token概率，研究者利用LLM输出的每个token的概率值，构建更精细的难度估计模型。最终，使用Spearman等级相关性来评估LLM估计的难度与经验难度的相关性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在小学数学的6个领域中，对项目难度的估计与实际难度呈现中等到强的正相关。对于简单的算术任务，某些配置的准确度接近人类专家水平。成对比较在没有额外改进的情况下优于绝对判断。通过结合token概率和少样本学习，绝对判断配置也达到了中等到高的对齐效果。这些结果表明LLM在项目难度估计方面具有潜力。

🎯 应用场景

该研究成果可应用于在线教育、自适应学习系统、考试命题等领域。通过利用LLM进行项目难度预估，可以降低新题目的测试成本，加速题目上线速度，并为自适应学习系统提供更准确的难度信息，从而提升学习效果。此外，该方法还可以扩展到其他需要专家评估的领域，如医疗诊断、法律咨询等。

📄 摘要（原文）

Accurate estimates of item difficulty are essential for valid assessment and effective adaptive learning. However, for newly created tasks, response data are typically unavailable. Pretesting and expert judgement can be costly and slow, while machine learning methods often require large labelled training datasets. Recent work suggests that large language models (LLMs) may help. However, there is limited evidence on the elicitation procedures and prompt configurations used to emulate experts for difficulty estimation. This study addresses this gap by evaluating three off-the-shelf LLMs as difficulty raters for newly created items without access to response data. Using an item bank from an online learning system, the study examined 6 domains of primary-school mathematics, with empirical difficulty estimates treated as empirical reference. The study used a full factorial design crossing three factors: judgement format (absolute vs pairwise), decision type (hard decisions vs token-probability-based estimates), and prompting strategy (zero-shot vs few-shot). LLM-derived difficulty estimates were compared with empirical difficulties using Spearman rank correlations. Across domains, LLM-based estimates exhibited moderate to strong positive correlations with empirical item difficulties. For simpler arithmetic tasks, some configurations approached the upper end of the accuracy range reported for human experts in previous research. Pairwise comparison consistently outperformed absolute judgement in the absence of additional refinements. However, when token-level probabilities were incorporated and examples of items with known empirical difficulty were provided, the absolute judgement configuration likewise demonstrated moderate-to-high alignment. The study positions LLMs as a promising tool for initial item calibration and offers insights into effective workflow configuration.

Estimating Item Difficulty with Large Language Models as Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理