Measuring What Cannot Be Surveyed: LLMs as Instruments for Latent Cognitive Variables in Labor Economics
作者: Cristian Espinal Maya
分类: econ.EM, cs.CL, stat.ME
发布日期: 2026-04-06
💡 一句话要点
利用大型语言模型测量难以调查的潜在认知变量,应用于劳动经济学。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 劳动经济学 认知变量 职业技能 测量工具 人工智能 语义理解
📋 核心要点
- 现有调查工具难以细粒度地测量职业任务的认知内容,限制了劳动经济学研究的深入。
- 利用大型语言模型(LLM)对职业任务语句进行评分,构建新的认知变量测量工具。
- 实验表明,该方法具有良好的收敛效度、区分效度和模型稳健性,并能有效纠正测量误差。
📝 摘要(中文)
本文为使用大型语言模型(LLM)作为潜在经济变量的测量工具奠定了理论和实践基础,特别是用于描述职业任务认知内容,其粒度是现有调查工具无法达到的。论文形式化了LLM生成的分数构成有效工具的四个条件:语义外生性、结构相关性、单调性和模型不变性。然后,将此框架应用于增强型人力资本指数(AHC_o),该指数由Claude Haiku 4.5评分的18,796个O*NET任务语句构建,并针对六个现有的AI暴露指数进行了验证。该指数显示出很强的收敛效度(与Eloundou GPT-gamma的相关系数为0.85,与Felten AIOE的相关系数为0.79)和区分效度。主成分分析证实,与AI相关的职业测量跨越了两个不同的维度——增强和替代。两个LLM模型之间的评分者间信度(n = 3,666个配对分数)产生Pearson r = 0.76和Krippendorff's alpha = 0.71。跨四种替代框架的提示敏感性分析表明,任务级别的排名是稳健的。显然相关的工具变量(ORIV)估计恢复的系数比OLS大25%,与经典测量误差衰减一致。该方法可推广到劳动经济学以外的任何需要大规模量化语义内容的领域。
🔬 方法详解
问题定义:现有劳动经济学研究中,对于职业任务的认知内容缺乏细粒度的量化方法。传统的调查问卷难以捕捉任务的复杂性和细微差别,导致相关研究存在测量误差和信息损失。因此,如何有效地测量和量化职业任务的潜在认知变量是一个关键问题。
核心思路:利用大型语言模型(LLM)强大的语义理解和生成能力,将LLM作为一种测量工具,对职业任务语句进行评分,从而量化任务的认知内容。这种方法的核心在于将LLM视为一种专家系统,能够根据其训练数据和推理能力,对任务的认知复杂性进行评估。
技术框架:该方法主要包括以下几个步骤:1)收集职业任务语句数据(例如,来自O*NET数据库);2)设计合适的提示(prompt),引导LLM对任务语句进行评分;3)使用LLM(例如,Claude Haiku 4.5)对任务语句进行评分,得到每个任务的认知变量得分;4)对LLM生成的分数进行验证,包括收敛效度、区分效度和模型稳健性分析;5)将LLM生成的分数应用于经济学模型,例如,使用显然相关的工具变量(ORIV)估计来纠正测量误差。
关键创新:该方法的主要创新在于将LLM作为一种新的测量工具,用于量化难以通过传统调查方法测量的潜在认知变量。与现有方法相比,该方法具有更高的粒度、更低的成本和更强的可扩展性。此外,该方法还提出了一套验证LLM生成分数的标准,包括语义外生性、结构相关性、单调性和模型不变性。
关键设计:在提示设计方面,论文尝试了多种不同的提示框架,并分析了提示对LLM评分结果的影响。在模型选择方面,论文使用了Claude Haiku 4.5,并与其他LLM模型进行了比较。在验证方面,论文使用了多种统计方法,包括相关性分析、主成分分析和ORIV估计。此外,论文还计算了LLM评分者之间的信度,以评估评分的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM生成的分数与现有的AI暴露指数具有很强的相关性(r = 0.85与Eloundou GPT-gamma,r = 0.79与Felten AIOE),验证了该方法的有效性。评分者间信度较高(Pearson r = 0.76,Krippendorff's alpha = 0.71),表明LLM评分具有较好的可靠性。使用ORIV估计纠正测量误差后,回归系数增大了25%,表明该方法能够有效减少测量误差带来的偏差。
🎯 应用场景
该研究方法可广泛应用于劳动经济学、教育学、管理学等领域,用于量化职业技能、教育内容、管理策略等方面的认知复杂性。通过更准确地测量这些潜在变量,可以更深入地理解劳动力市场、教育体系和组织行为,为政策制定和实践提供更可靠的依据。此外,该方法还可以用于评估人工智能对不同职业的影响,预测未来就业趋势。
📄 摘要(原文)
This paper establishes the theoretical and practical foundations for using Large Language Models (LLMs) as measurement instruments for latent economic variables -- specifically variables that describe the cognitive content of occupational tasks at a level of granularity not achievable with existing survey instruments. I formalize four conditions under which LLM-generated scores constitute valid instruments: semantic exogeneity, construct relevance, monotonicity, and model invariance. I then apply this framework to the Augmented Human Capital Index (AHC_o), constructed from 18,796 O*NET task statements scored by Claude Haiku 4.5, and validated against six existing AI exposure indices. The index shows strong convergent validity (r = 0.85 with Eloundou GPT-gamma, r = 0.79 with Felten AIOE) and discriminant validity.Principal component analysis confirms that AI-related occupational measures span two distinct dimensions -- augmentation and substitution. Inter-rater reliability across two LLM models (n = 3,666 paired scores) yields Pearson r = 0.76 and Krippendorff's alpha = 0.71. Prompt sensitivity analysis across four alternative framings shows that task-level rankings are robust. Obviously Related Instrumental Variables (ORIV) estimation recovers coefficients 25% larger than OLS, consistent with classical measurement error attenuation. The methodology generalizes beyond labor economics to any domain where semantic content must be quantified at scale.