Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models

作者: Chang-Jin Li, Jiyuan Zhang, Yun Tang, Jian Li

分类: cs.CL, cs.AI

发布日期: 2024-12-10 (更新: 2025-04-16)

备注: Submitted to Psychological Methods. 56 pages (main text), 12 pages (appendix), and 5 figures

💡 一句话要点

利用GPT-4自动生成人格情境判断测验，提升心理测评效率与质量

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情境判断测验 自动条目生成 心理测量学 GPT-4

📋 核心要点

传统情境判断测验(SJT)开发耗时费力，且容易引入主观偏差，限制了其应用范围。
本研究利用GPT-4自动生成人格SJT，通过优化提示词和温度参数，提升生成条目的质量和多样性。
实验结果表明，GPT-4生成的SJT在信度和效度上表现良好，甚至优于人工设计的测验，显著提升了测评效率。

📝 摘要（中文）

本研究探索了大型语言模型GPT-4在自动生成中文人格情境判断测验(PSJT)方面的潜力。传统SJT开发耗时且易受偏见影响，而GPT-4提供了一种可扩展、高效的替代方案。研究一评估了提示设计和温度设置对内容效度的影响，发现优化后的提示和1.0的温度设置能够生成具有创造性和准确性的条目。研究二评估了GPT-4生成的PSJT的心理测量学特性，结果表明其具有令人满意的信度和效度，在测量大五人格特质方面优于人工开发的测验。该研究强调了GPT-4在开发高质量PSJT方面的有效性，为心理测量学测试开发提供了一种可扩展的创新方法。这些发现扩展了自动条目生成的可能性以及LLM在心理学中的应用，并为简化资源有限环境中的测试开发流程提供了实际意义。

🔬 方法详解

问题定义：本研究旨在解决人格情境判断测验（PSJT）开发过程中耗时、费力且易受主观偏见影响的问题。传统方法依赖于专家经验，开发周期长，成本高昂，且难以保证测验的客观性和泛化性。

核心思路：核心思路是利用大型语言模型（LLM）GPT-4的强大生成能力，通过精心设计的提示词（Prompt）引导其自动生成PSJT条目。通过调整生成过程中的温度参数，控制生成内容的多样性和创造性，从而在保证内容有效性的前提下，提高生成效率。

技术框架：整体框架包含两个主要阶段：1) 基于不同提示词和温度设置，利用GPT-4生成大量的PSJT条目；2) 对生成的条目进行内容效度评估（专家评估）和心理测量学特性评估（信度、效度）。通过对比不同提示词和温度设置下的生成结果，以及与人工开发的测验进行对比，验证GPT-4在PSJT生成方面的有效性。

关键创新：关键创新在于将大型语言模型应用于心理测量学测验的自动生成，探索了一种全新的测验开发模式。与传统方法相比，该方法具有更高的效率、更低的成本和更强的可扩展性。此外，通过优化提示词和调整温度参数，可以有效控制生成内容的质量和多样性，从而满足不同应用场景的需求。

关键设计：研究中使用了不同的提示词模板，例如，要求GPT-4生成针对特定人格特质（如宜人性）的、包含特定情境描述和多个选项的PSJT条目。温度参数的设置范围为0.2到1.0，用于控制生成内容的多样性。此外，研究还采用了专家评估和心理测量学分析等方法，对生成条目的质量和有效性进行评估。

📊 实验亮点

研究结果表明，经过优化提示词和温度设置后，GPT-4生成的PSJT在内容效度、信度和效度方面均表现良好，甚至在测量大五人格特质方面优于人工开发的测验。这表明GPT-4在自动生成高质量PSJT方面具有显著优势，为心理测量学测试开发提供了一种高效、可扩展的替代方案。

🎯 应用场景

该研究成果可广泛应用于人才选拔、心理咨询、教育评估等领域。通过自动生成高质量的PSJT，可以降低测评成本，提高测评效率，并为个性化评估提供更多可能性。未来，该技术还可扩展到其他类型的心理测量学测验，推动心理测量学领域的智能化发展。

📄 摘要（原文）

Personality assessment, particularly through situational judgment tests (SJTs), is a vital tool for psychological research, talent selection, and educational evaluation. This study explores the potential of GPT-4, a state-of-the-art large language model (LLM), to automate the generation of personality situational judgment tests (PSJTs) in Chinese. Traditional SJT development is labor-intensive and prone to biases, while GPT-4 offers a scalable, efficient alternative. Two studies were conducted: Study 1 evaluated the impact of prompt design and temperature settings on content validity, finding that optimized prompts with a temperature of 1.0 produced creative and accurate items. Study 2 assessed the psychometric properties of GPT-4-generated PSJTs, revealing that they demonstrated satisfactory reliability and validity, surpassing the performance of manually developed tests in measuring the Big Five personality traits. This research highlights GPT-4's effectiveness in developing high-quality PSJTs, providing a scalable and innovative method for psychometric test development. These findings expand the possibilities of automatic item generation and the application of LLMs in psychology, and offer practical implications for streamlining test development processes in resource-limited settings.

Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理