Measuring Scalar Constructs in Social Science with LLMs
作者: Hauke Licht, Rupak Sarkar, Patrick Y. Wu, Pranav Goel, Niklas Stoehr, Elliott Ash, Alexander Miserlis Hoyle
分类: cs.CL
发布日期: 2025-09-03 (更新: 2025-09-22)
备注: Accepted to EMNLP 2025 (Main)
💡 一句话要点
利用LLM测量社会科学中的标量结构,提出token概率加权评分方法并验证其有效性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 标量测量 社会科学 token概率 微调 文本分析 情感分析
📋 核心要点
- 现有方法在测量语言的复杂性或情感性等标量结构时存在不足,LLM直接输出分数容易聚集在任意数字附近。
- 论文提出token概率加权逐点评分方法,通过对LLM输出的token概率进行加权平均,更准确地测量标量结构。
- 实验结果表明,token概率加权评分优于直接评分和成对比较,且微调小模型也能达到甚至超过prompt LLM的性能。
📝 摘要(中文)
许多用于描述语言的结构,如复杂性或情感性,都具有天然的连续语义结构。大型语言模型(LLM)是测量标量结构的有效工具,但其对数值输出的特殊处理方式引发了如何最佳应用它们的问题。本文针对社会科学中基于LLM的标量结构测量方法进行了全面评估。使用来自政治学文献的多个数据集,我们评估了四种方法:无权重直接逐点评分、成对比较聚合、token概率加权逐点评分和微调。研究发现,LLM进行的成对比较比直接提示LLM输出分数产生更好的测量结果,后者容易聚集在任意数字附近。然而,对分数的token概率进行加权平均进一步改进了测量结果。最后,使用少至1000个训练对微调较小的模型可以匹配或超过提示LLM的性能。
🔬 方法详解
问题定义:论文旨在解决社会科学中如何利用大型语言模型(LLM)更准确地测量标量结构的问题,例如文本的复杂性或情感倾向。现有方法,特别是直接提示LLM输出分数的方法,存在一个主要痛点:LLM倾向于将输出聚集在某些特定的、任意的数字附近,导致测量结果的偏差和不准确。
核心思路:论文的核心思路是,与其直接依赖LLM输出的数值结果,不如利用LLM输出的token概率分布,通过加权平均的方式来更精细地估计标量值。这种方法假设LLM在生成不同token时,其概率分布蕴含了关于标量结构的更丰富信息,通过合理加权可以提取这些信息。此外,论文还探索了通过微调小模型来提高测量准确性的方法。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据准备:收集来自政治学文献的多个数据集,这些数据集包含需要测量的标量结构(如文本复杂性)。2) 方法评估:评估四种不同的LLM应用方法,包括无权重直接逐点评分、成对比较聚合、token概率加权逐点评分和微调。3) 性能比较:使用适当的评估指标(具体指标未知)比较不同方法的测量准确性。4) 模型微调:使用少量训练数据(1000个训练对)微调较小的模型,并评估其性能。
关键创新:论文最重要的技术创新点在于提出了token概率加权逐点评分方法。与直接评分相比,该方法利用了LLM输出的token概率分布,从而能够更精细地捕捉标量结构的细微变化。与成对比较相比,该方法避免了大量的成对比较计算,提高了效率。此外,通过微调小模型,论文展示了在计算资源有限的情况下,仍然可以获得与大型LLM相当甚至更好的性能。
关键设计:论文的关键设计包括:1) token概率加权的具体方式(加权函数未知)。2) 成对比较的具体实现方式(比较策略未知)。3) 微调模型的具体架构和训练参数(模型结构、损失函数、优化器等未知)。4) 评估指标的选择(具体指标未知)。
📊 实验亮点
实验结果表明,token概率加权逐点评分方法优于直接评分和成对比较方法,能够更准确地测量标量结构。此外,使用少量训练数据(1000个训练对)微调较小的模型可以匹配或超过提示LLM的性能,这表明在计算资源有限的情况下,仍然可以通过微调获得良好的测量效果。(具体性能数据和提升幅度未知)
🎯 应用场景
该研究成果可广泛应用于社会科学领域,例如政治学、社会学、传播学等。它可以帮助研究人员更准确地测量文本的情感倾向、复杂性、可读性等标量特征,从而进行更深入的社会现象分析。此外,该方法还可以应用于舆情监控、内容审核、智能推荐等领域,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Many constructs that characterize language, like its complexity or emotionality, have a naturally continuous semantic structure; a public speech is not just "simple" or "complex," but exists on a continuum between extremes. Although large language models (LLMs) are an attractive tool for measuring scalar constructs, their idiosyncratic treatment of numerical outputs raises questions of how to best apply them. We address these questions with a comprehensive evaluation of LLM-based approaches to scalar construct measurement in social science. Using multiple datasets sourced from the political science literature, we evaluate four approaches: unweighted direct pointwise scoring, aggregation of pairwise comparisons, token-probability-weighted pointwise scoring, and finetuning. Our study finds that pairwise comparisons made by LLMs produce better measurements than simply prompting the LLM to directly output the scores, which suffers from bunching around arbitrary numbers. However, taking the weighted mean over the token probability of scores further improves the measurements over the two previous approaches. Finally, finetuning smaller models with as few as 1,000 training pairs can match or exceed the performance of prompted LLMs.