Adding LLMs to the psycholinguistic norming toolbox: A practical guide to getting the most out of human ratings
作者: Javier Conde, María Grandury, Tairan Fu, Carlos Arriaga, Gonzalo Martínez, Thomas Clark, Sean Trott, Clarence Gerald Green, Pedro Reviriego, Marc Brysbaert
分类: cs.CL
发布日期: 2025-09-17
💡 一句话要点
提出一种利用大型语言模型增强心理语言学规范数据集的方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理语言学 大型语言模型 词汇规范 词汇熟悉度 模型微调
📋 核心要点
- 现有心理语言学规范数据集构建耗时费力,难以满足快速发展的研究需求。
- 利用大型语言模型预测词汇特征,可以有效扩充数据集,但缺乏系统方法指导。
- 论文提出一套完整的方法论和软件框架,并通过词汇熟悉度估计案例验证有效性。
📝 摘要(中文)
词汇层面的心理语言学规范为语言处理理论提供了经验支持。然而,获取此类基于人类的测量数据并非总是可行或直接。一个有前景的方法是利用大型语言模型(LLM)直接预测这些特征,从而扩充人类规范数据集,这种做法在心理语言学和认知科学中正迅速普及。然而,这种方法的新颖性(以及LLM相对难以理解的特性)需要采用严格的方法论,指导研究人员完成这一过程,展示可能的方法范围,并阐明那些并非立即显现,但在某些情况下可能导致LLM使用不切实际的局限性。本文提出了一种使用LLM估计词汇特征的综合方法,其中包含实践建议和我们自身经验中获得的教训。我们的方法涵盖了基础LLM的直接使用和模型微调,后者可以在某些情况下产生显著的性能提升。本指南的一个主要重点是使用人类“金标准”规范验证LLM生成的数据。我们还提出了一个实现我们方法论并支持商业和开源模型的软件框架。我们通过一个关于估计英语单词熟悉度的案例研究来说明所提出的方法。使用基础模型,我们与人类评分实现了0.8的Spearman相关性,而使用微调模型时,相关性提高到0.9。这种方法、框架和最佳实践旨在为未来利用LLM进行心理语言学和词汇研究的研究提供参考。
🔬 方法详解
问题定义:论文旨在解决心理语言学中词汇特征(如词汇熟悉度)标注成本高昂的问题。传统方法依赖于人工标注,耗时耗力,难以跟上语言发展的速度。现有方法缺乏有效利用大型语言模型(LLM)进行词汇特征预测的系统性指导。
核心思路:论文的核心思路是利用LLM强大的语言理解和生成能力,直接预测词汇的心理语言学特征。通过对LLM进行适当的提示工程或微调,使其能够模拟人类的判断,从而自动生成大规模的词汇特征数据。这种方法可以显著降低标注成本,并加速心理语言学研究的进展。
技术框架:论文提出的技术框架包含以下几个主要阶段:1) 数据准备:收集现有的心理语言学规范数据集作为训练和验证数据。2) 模型选择:选择合适的LLM作为基础模型,可以是商业模型或开源模型。3) 提示工程或微调:设计合适的提示语,引导LLM进行词汇特征预测,或者使用规范数据集对LLM进行微调,使其更好地适应特定任务。4) 模型评估:使用人类“金标准”规范数据集评估LLM预测的准确性,并进行误差分析。5) 结果验证:将LLM生成的数据应用于实际的心理语言学研究,验证其有效性。
关键创新:论文的关键创新在于提出了一套完整的、可操作的LLM辅助心理语言学规范构建方法。该方法不仅包括了模型选择、提示工程和微调等技术细节,还强调了数据验证和误差分析的重要性。此外,论文还提供了一个软件框架,方便研究人员使用和扩展该方法。
关键设计:论文的关键设计包括:1) 详细的提示工程策略,例如使用特定的问题形式或提供上下文信息,以提高LLM预测的准确性。2) 基于人类“金标准”规范的评估指标,例如Spearman相关系数,用于衡量LLM预测与人类判断的一致性。3) 模型微调策略,例如使用特定的损失函数或正则化方法,以防止过拟合。
📊 实验亮点
论文通过词汇熟悉度估计的案例研究,验证了所提出方法的有效性。使用基础LLM,实现了与人类评分0.8的Spearman相关性,而使用微调后的LLM,相关性提高到0.9。这表明LLM可以有效地模拟人类的判断,并生成高质量的心理语言学规范数据。
🎯 应用场景
该研究成果可广泛应用于心理语言学、认知科学、自然语言处理等领域。例如,可以用于构建大规模的词汇资源,改进语言模型,开发更智能的人机交互系统,以及研究语言障碍和认知障碍等问题。该方法有望加速相关领域的研究进展,并产生重要的社会价值。
📄 摘要(原文)
Word-level psycholinguistic norms lend empirical support to theories of language processing. However, obtaining such human-based measures is not always feasible or straightforward. One promising approach is to augment human norming datasets by using Large Language Models (LLMs) to predict these characteristics directly, a practice that is rapidly gaining popularity in psycholinguistics and cognitive science. However, the novelty of this approach (and the relative inscrutability of LLMs) necessitates the adoption of rigorous methodologies that guide researchers through this process, present the range of possible approaches, and clarify limitations that are not immediately apparent, but may, in some cases, render the use of LLMs impractical. In this work, we present a comprehensive methodology for estimating word characteristics with LLMs, enriched with practical advice and lessons learned from our own experience. Our approach covers both the direct use of base LLMs and the fine-tuning of models, an alternative that can yield substantial performance gains in certain scenarios. A major emphasis in the guide is the validation of LLM-generated data with human "gold standard" norms. We also present a software framework that implements our methodology and supports both commercial and open-weight models. We illustrate the proposed approach with a case study on estimating word familiarity in English. Using base models, we achieved a Spearman correlation of 0.8 with human ratings, which increased to 0.9 when employing fine-tuned models. This methodology, framework, and set of best practices aim to serve as a reference for future research on leveraging LLMs for psycholinguistic and lexical studies.