Using LLMs to identify features of personal and professional skills in an open-response situational judgment test

📄 arXiv: 2507.13881v1 📥 PDF

作者: Cole Walsh, Rodica Ivan, Muhammad Zafar Iqbal, Colleen Robb

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-07-18

备注: 10 pages, 2 figures, 4 tables; this work was accepted for presentation at the 2025 Artificial Intelligence in Measurement and Education Conference in Pittsburgh, Pennsylvania, United States


💡 一句话要点

利用大型语言模型识别情境判断测试中个人与职业技能特征

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情境判断测试 大型语言模型 自动评分 个人技能 职业技能

📋 核心要点

  1. 开放式情境判断测试依赖人工评分,成本高昂且难以规模化,现有NLP评分系统存在结构效度问题。
  2. 利用大型语言模型从SJT回答中提取与结构相关的特征,为自动评分提供新途径。
  3. 使用Casper SJT验证了该方法的有效性,为未来个人和职业技能的自动评分奠定基础。

📝 摘要(中文)

学术项目日益重视个人和职业技能,及其在培养学生应对未来多元职业道路中的关键作用,这些技能与技术专长同等重要。随着需求的增长,需要可扩展的系统来测量、评估和发展这些技能。情境判断测试(SJTs)提供了一种潜在途径,以标准化和可靠的方式测量这些技能,但开放式SJTs传统上依赖于训练有素的人工评分员进行评估,这给大规模实施SJTs带来了运营挑战。过去基于NLP的SJT评分系统的尝试由于这些系统的结构效度问题而失败。在本文中,我们探索了一种新颖的方法,即使用大型语言模型(LLM)从SJT响应中提取与结构相关的特征。我们使用Casper SJT来证明这种方法的有效性。这项研究为个人和职业技能的自动评分的未来发展奠定了基础。

🔬 方法详解

问题定义:论文旨在解决开放式情境判断测试(SJT)中人工评分成本高、难以规模化的问题。现有基于NLP的自动评分系统在结构效度方面存在不足,无法准确评估个人和职业技能。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解和特征提取能力,直接从SJT的开放式回答中提取与特定技能相关的特征。通过这种方式,避免了传统NLP方法中特征工程的复杂性和主观性,并提高了评分系统的结构效度。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:使用Casper SJT收集开放式回答数据。2) 特征提取:利用预训练的LLM(具体模型未知)对SJT回答进行编码,提取特征向量。3) 特征选择/降维(未知):可能使用一些特征选择或降维技术来减少特征维度,提高模型的泛化能力。4) 评分模型训练:使用提取的特征训练评分模型,预测SJT回答的得分。5) 模型评估:评估评分模型的性能,并与人工评分进行比较。

关键创新:该研究的关键创新在于将LLM应用于SJT的自动评分,直接从开放式回答中提取与结构相关的特征。与传统的基于规则或特征工程的NLP方法相比,该方法能够更好地捕捉SJT回答中的复杂语义信息,提高评分系统的准确性和结构效度。

关键设计:论文中没有详细描述LLM的具体选择、训练方式、特征提取方法以及评分模型的具体结构和参数设置。这些是未知信息,需要参考后续发表的论文或代码才能了解。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文使用Casper SJT验证了该方法的有效性,但具体的性能数据(如准确率、相关系数等)以及与人工评分或其他基线方法的对比结果并未在摘要中给出。因此,实验亮点的具体量化数据未知,需要查阅论文全文才能获取。

🎯 应用场景

该研究成果可应用于大规模在线教育、人才招聘和职业发展评估等领域。通过自动评估个人和职业技能,可以降低评估成本,提高评估效率,并为个性化学习和职业发展提供更准确的反馈。未来,该技术有望应用于更广泛的技能评估场景,推动教育和人力资源管理的智能化。

📄 摘要(原文)

Academic programs are increasingly recognizing the importance of personal and professional skills and their critical role alongside technical expertise in preparing students for future success in diverse career paths. With this growing demand comes the need for scalable systems to measure, evaluate, and develop these skills. Situational Judgment Tests (SJTs) offer one potential avenue for measuring these skills in a standardized and reliable way, but open-response SJTs have traditionally relied on trained human raters for evaluation, presenting operational challenges to delivering SJTs at scale. Past attempts at developing NLP-based scoring systems for SJTs have fallen short due to issues with construct validity of these systems. In this article, we explore a novel approach to extracting construct-relevant features from SJT responses using large language models (LLMs). We use the Casper SJT to demonstrate the efficacy of this approach. This study sets the foundation for future developments in automated scoring for personal and professional skills.