Can GPT replace human raters? Validity and reliability of machine-generated norms for metaphors

📄 arXiv: 2512.12444v1 📥 PDF

作者: Veronica Mangiaterra, Hamad Al-Azary, Chiara Barattieri di San Pietro, Paolo Canal, Valentina Bambini

分类: cs.CL

发布日期: 2025-12-13

备注: 30 pages, 5 figures


💡 一句话要点

评估GPT在隐喻评分任务中的有效性和可靠性,探索其替代人工评估的可行性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 隐喻理解 心理语言学 自动评分 GPT模型

📋 核心要点

  1. 现有心理语言学研究依赖人工标注隐喻属性,成本高昂且效率较低,亟需自动化方法。
  2. 本研究利用GPT模型自动生成隐喻的熟悉度、可理解性和形象性评分,旨在评估其替代人工评分的可行性。
  3. 实验结果表明,GPT生成的评分与人类评分具有良好相关性,并能有效预测行为和脑电生理反应。

📝 摘要(中文)

随着大型语言模型(LLMs)在科学研究中应用日益广泛,其可信度问题变得至关重要。在心理语言学领域,LLMs已被用于自动扩充人工标注的数据集,并在生成单字评分方面取得了可喜的成果。然而,对于复杂项目(如隐喻)的评分性能仍未得到充分探索。本文首次评估了三个GPT模型对687个意大利语和英语隐喻在熟悉度、可理解性和形象性方面的评分的有效性和可靠性。我们通过与人类数据的对齐以及预测行为和脑电生理反应的能力进行了全面的验证。结果表明,机器生成的评分与人类生成的评分呈正相关。熟悉度评分在英语和意大利语隐喻中均达到中等至强的相关性,但对于感觉运动负荷较高的隐喻,相关性减弱。形象性在英语中表现出中等相关性,在意大利语中表现出中等至强的相关性。英语隐喻的可理解性表现出最强的相关性。总体而言,较大的模型优于较小的模型,并且在熟悉度和形象性方面,人类与模型之间的不一致性更大。机器生成的评分显著预测了反应时间和脑电图幅度,其强度与人类评分相当。此外,在独立会话中获得的GPT评分具有高度稳定性。我们得出结论,GPT,尤其是较大的模型,可以有效地替代或扩充人类受试者在隐喻属性评分中的作用。然而,在处理隐喻意义的常规性和多模态方面,LLMs与人类的对齐效果较差,因此需要仔细考虑刺激的性质。

🔬 方法详解

问题定义:论文旨在解决心理语言学中隐喻属性(熟悉度、可理解性和形象性)人工评分成本高、效率低的问题。现有方法依赖于人工标注,耗时耗力,且可能存在主观偏差。

核心思路:利用大型语言模型(LLMs)如GPT的强大语言理解和生成能力,自动生成隐喻的属性评分。核心在于验证机器生成的评分与人类评分的一致性,以及机器评分在预测人类行为和脑电生理反应方面的有效性。

技术框架:该研究使用三个GPT模型(具体模型未知)对687个隐喻进行评分。隐喻数据来自意大利语和英语语料库。研究流程包括:1) 使用GPT模型生成隐喻的熟悉度、可理解性和形象性评分;2) 将机器评分与人工评分进行相关性分析;3) 使用机器评分和人工评分预测人类的反应时间和脑电图(EEG)幅度;4) 评估GPT评分在不同会话中的稳定性。

关键创新:首次系统性地评估了LLMs在隐喻属性评分任务中的有效性和可靠性。之前的研究主要集中在单字评分,而本研究扩展到更复杂的隐喻。此外,该研究不仅关注机器评分与人工评分的一致性,还验证了机器评分在预测人类行为和脑电生理反应方面的能力。

关键设计:研究中使用了三种不同的GPT模型,以便比较不同模型大小对评分质量的影响。使用了相关性分析来评估机器评分与人工评分的一致性。使用了回归分析来评估机器评分和人工评分对反应时间和脑电图幅度的预测能力。通过在独立会话中重复生成评分,评估了GPT评分的稳定性。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于未知信息。

📊 实验亮点

研究表明,GPT生成的隐喻评分与人类评分具有显著的正相关性,尤其是在可理解性方面。较大的GPT模型表现优于较小的模型。机器生成的评分能够有效预测人类的反应时间和脑电图幅度,其预测能力与人类评分相当。GPT评分在不同会话中具有高度稳定性,表明其具有良好的可靠性。

🎯 应用场景

该研究成果可应用于心理语言学、认知科学和自然语言处理等领域。利用GPT自动生成隐喻评分可以降低研究成本,提高效率,并为大规模隐喻研究提供支持。此外,该方法还可以扩展到其他语言现象的属性评分,例如讽刺、幽默等,促进相关领域的发展。

📄 摘要(原文)

As Large Language Models (LLMs) are increasingly being used in scientific research, the issue of their trustworthiness becomes crucial. In psycholinguistics, LLMs have been recently employed in automatically augmenting human-rated datasets, with promising results obtained by generating ratings for single words. Yet, performance for ratings of complex items, i.e., metaphors, is still unexplored. Here, we present the first assessment of the validity and reliability of ratings of metaphors on familiarity, comprehensibility, and imageability, generated by three GPT models for a total of 687 items gathered from the Italian Figurative Archive and three English studies. We performed a thorough validation in terms of both alignment with human data and ability to predict behavioral and electrophysiological responses. We found that machine-generated ratings positively correlated with human-generated ones. Familiarity ratings reached moderate-to-strong correlations for both English and Italian metaphors, although correlations weakened for metaphors with high sensorimotor load. Imageability showed moderate correlations in English and moderate-to-strong in Italian. Comprehensibility for English metaphors exhibited the strongest correlations. Overall, larger models outperformed smaller ones and greater human-model misalignment emerged with familiarity and imageability. Machine-generated ratings significantly predicted response times and the EEG amplitude, with a strength comparable to human ratings. Moreover, GPT ratings obtained across independent sessions were highly stable. We conclude that GPT, especially larger models, can validly and reliably replace - or augment - human subjects in rating metaphor properties. Yet, LLMs align worse with humans when dealing with conventionality and multimodal aspects of metaphorical meaning, calling for careful consideration of the nature of stimuli.