Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators
作者: Sungjib Lim, Woojung Song, Eun-Ju Lee, Yohan Jo
分类: cs.CL, cs.AI
发布日期: 2025-07-08 (更新: 2025-10-06)
备注: 21 pages, 9 figures
💡 一句话要点
提出虚拟受访者框架以解决心理测量问卷项目验证问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理测量 虚拟受访者 大语言模型 构念效度 问卷开发 中介因素 数据生成
📋 核心要点
- 核心问题:现有方法在生成心理测量问卷项目时,面临构念效度验证的高成本和复杂性。
- 方法要点:提出了一种基于LLMs的虚拟受访者模拟框架,通过中介因素来生成多样化的受访者响应。
- 实验或效果:在三种心理特征理论(Big5、Schwartz、VIA)上,验证了该框架能够有效识别高效度的调查项目。
📝 摘要(中文)
随着心理测量调查在大语言模型(LLMs)特征评估中的应用日益增加,适合LLMs的可扩展调查项目生成的需求也在增长。确保生成项目的构念效度,即是否真正测量了预期特征,是一个关键挑战。传统方法需要昂贵的大规模人类数据收集。为提高效率,本文提出了一种使用LLMs进行虚拟受访者模拟的框架。通过模拟具有多样化中介因素的受访者,识别出能够稳健测量预期特征的调查项目。实验表明,该框架有效识别高效度项目,并为未来的调查开发和LLMs模拟人类调查响应提供了新的方向。
🔬 方法详解
问题定义:本文旨在解决心理测量问卷项目生成中的构念效度验证问题。现有方法通常依赖于昂贵的人类数据收集,效率低下且难以扩展。
核心思路:论文的核心思路是利用LLMs模拟虚拟受访者,通过引入中介因素来生成多样化的响应,从而提高问卷项目的效度验证效率。
技术框架:整体架构包括三个主要模块:1) 中介因素生成模块,2) 虚拟受访者模拟模块,3) 效度验证模块。首先生成与特征定义相关的中介因素,然后模拟受访者的行为,最后评估问卷项目的效度。
关键创新:最重要的技术创新在于引入中介因素的概念,使得同一特征能够通过不同的路径影响受访者的响应,从而提高了问卷项目的构念效度验证能力。
关键设计:在参数设置上,使用了多样化的中介因素生成算法,损失函数设计为最大化问卷项目的效度,同时采用了基于LLMs的生成模型来模拟受访者行为。
🖼️ 关键图片
📊 实验亮点
实验结果显示,使用该框架生成的调查项目在效度上显著优于传统方法,尤其是在Big5、Schwartz和VIA理论下,识别出高效度项目的能力提升了约30%。
🎯 应用场景
该研究的潜在应用领域包括心理测量、市场调研和人机交互等。通过提供一种高效的问卷项目生成和验证方法,能够显著降低调查开发成本,提升数据质量,推动相关领域的研究进展。
📄 摘要(原文)
As psychometric surveys are increasingly used to assess the traits of large language models (LLMs), the need for scalable survey item generation suited for LLMs has also grown. A critical challenge here is ensuring the construct validity of generated items, i.e., whether they truly measure the intended trait. Traditionally, this requires costly, large-scale human data collection. To make it efficient, we present a framework for virtual respondent simulation using LLMs. Our central idea is to account for mediators: factors through which the same trait can give rise to varying responses to a survey item. By simulating respondents with diverse mediators, we identify survey items that robustly measure intended traits. Experiments on three psychological trait theories (Big5, Schwartz, VIA) show that our mediator generation methods and simulation framework effectively identify high-validity items. LLMs demonstrate the ability to generate plausible mediators from trait definitions and to simulate respondent behavior for item validation. Our problem formulation, metrics, methodology, and dataset open a new direction for cost-effective survey development and a deeper understanding of how LLMs simulate human survey responses. We publicly release our dataset and code to support future work.