A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models

作者: Elena Kardanova, Alina Ivanova, Ksenia Tarasova, Taras Pashchenko, Aleksei Tikhoniuk, Elen Yusupova, Anatoly Kasprzhak, Yaroslav Kuzminov, Ekaterina Kruchinskaia, Irina Brun

分类: cs.CL, cs.AI

发布日期: 2024-10-29

备注: 36 pages, 2 figures

💡 一句话要点

提出基于心理测量学的LLM专业能力基准评估方法，应用于教育领域。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 心理测量学 教育基准 能力评估 布鲁姆分类学 以证据为中心的设计 GPT模型 俄语

📋 核心要点

现有LLM评估基准缺乏有效性和可靠性，无法准确反映模型在特定领域的专业能力。
采用以证据为中心的设计（ECD）方法，结合心理测量学原则，构建更严谨的评估基准。
在教育领域构建新基准，评估俄语GPT模型在不同认知任务中的表现，揭示其能力差距。

📝 摘要（中文）

大型语言模型（LLM）时代不仅带来了模型训练的问题，也引发了如何评估这些模型的问题。尽管现有的基准测试很多，但往往缺乏对LLM进行有效和可靠评估的关注。为了解决这个问题，我们采用了以证据为中心的设计（ECD）方法，并提出了一种基于严格心理测量学原则的综合基准开发方法。本文首次尝试通过在教学和教育领域创建一个新的基准来阐述这种方法，强调了现有基准开发方法的局限性，并考虑了LLM的发展。我们得出结论，需要一种新的基准测试方法来匹配人工智能在教育环境中日益增长的复杂性。我们构建了一个由教育专家组成的联盟，根据布鲁姆分类学指导并经过严格设计的基准。因此，目前的基准提供了一个学术上可靠和实用的评估工具，专为LLM而非人类参与者量身定制。通过在俄语GPT模型上进行的实证测试，评估了模型在不同任务复杂性下的性能，揭示了当前LLM能力的关键差距。我们的结果表明，虽然生成式人工智能工具在教育领域具有巨大的潜力——可能支持个性化辅导、实时反馈和多语言学习等任务——但它们作为自主教师助手的可靠性目前仍然相当有限，尤其是在需要更深入认知参与的任务中。

🔬 方法详解

问题定义：现有LLM的评估基准往往不够严谨，缺乏心理测量学的理论基础，难以准确评估LLM在特定专业领域的能力，尤其是在教育领域，现有基准无法有效评估LLM作为教师助手的能力。

核心思路：借鉴心理测量学中以证据为中心的设计（ECD）方法，将评估过程分解为多个环节，确保评估内容与目标能力紧密相关，并采用科学的测量方法，提高评估的有效性和可靠性。

技术框架：该方法包含以下几个主要阶段：1) 定义评估目标：明确需要评估的LLM在特定领域（如教育）的哪些专业能力；2) 设计评估任务：根据评估目标，设计能够有效测量这些能力的评估任务，任务难度应符合布鲁姆分类学；3) 制定评分标准：为每个评估任务制定详细的评分标准，确保评分的客观性和一致性；4) 数据收集与分析：收集LLM在评估任务中的表现数据，并进行统计分析，评估LLM的能力水平。

关键创新：该方法的核心创新在于将心理测量学的理论和方法引入LLM的评估中，克服了传统评估方法的主观性和随意性，提高了评估的科学性和有效性。与现有方法相比，该方法更加注重评估内容的有效性，评估过程的标准化和评估结果的可靠性。

关键设计：在教育领域的基准设计中，任务设计参考布鲁姆分类学，涵盖知识、理解、应用、分析、综合和评价等不同认知层次。评分标准由教育专家制定，并经过信度检验，确保评分的一致性。实验采用俄语GPT模型，评估其在不同难度教育任务中的表现。

📊 实验亮点

实验结果表明，虽然GPT模型在教育领域具有潜力，但在需要深度认知参与的任务中表现有限。该基准测试揭示了当前LLM在教育应用中的关键差距，为未来的模型改进提供了方向。该研究也验证了基于心理测量学的评估方法在LLM评估中的有效性。

🎯 应用场景

该研究成果可应用于LLM在教育领域的应用评估，例如评估LLM作为个性化辅导系统、实时反馈系统和多语言学习工具的潜力。该方法也可推广到其他专业领域，为LLM的职业能力评估提供更科学的依据，促进人工智能在各行业的健康发展。

📄 摘要（原文）

The era of large language models (LLM) raises questions not only about how to train models, but also about how to evaluate them. Despite numerous existing benchmarks, insufficient attention is often given to creating assessments that test LLMs in a valid and reliable manner. To address this challenge, we accommodate the Evidence-centered design (ECD) methodology and propose a comprehensive approach to benchmark development based on rigorous psychometric principles. In this paper, we have made the first attempt to illustrate this approach by creating a new benchmark in the field of pedagogy and education, highlighting the limitations of existing benchmark development approach and taking into account the development of LLMs. We conclude that a new approach to benchmarking is required to match the growing complexity of AI applications in the educational context. We construct a novel benchmark guided by the Bloom's taxonomy and rigorously designed by a consortium of education experts trained in test development. Thus the current benchmark provides an academically robust and practical assessment tool tailored for LLMs, rather than human participants. Tested empirically on the GPT model in the Russian language, it evaluates model performance across varied task complexities, revealing critical gaps in current LLM capabilities. Our results indicate that while generative AI tools hold significant promise for education - potentially supporting tasks such as personalized tutoring, real-time feedback, and multilingual learning - their reliability as autonomous teachers' assistants right now remain rather limited, particularly in tasks requiring deeper cognitive engagement.

A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理