Using large language models to estimate features of multi-word expressions: Concreteness, valence, arousal

📄 arXiv: 2408.16012v1 📥 PDF

作者: Gonzalo Martínez, Juan Diego Molero, Sandra González, Javier Conde, Marc Brysbaert, Pedro Reviriego

分类: cs.CL

发布日期: 2024-08-16


💡 一句话要点

利用大型语言模型评估多词表达的具象性、效价和唤醒度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多词表达 具象性 效价 唤醒度 心理语言学 自然语言处理

📋 核心要点

  1. 现有AI方法难以捕捉多词表达的细微含义,限制了其在心理语言学研究中的应用。
  2. 本研究利用大型语言模型(LLMs)理解上下文的能力,评估其预测多词表达心理语言学特征的潜力。
  3. 实验表明,ChatGPT-4o在预测具象性、效价和唤醒度方面表现出色,与人类评级高度相关。

📝 摘要(中文)

本研究探讨了大型语言模型(LLMs)在提供多词表达的具象性、效价和唤醒度准确估计方面的潜力。与以往的人工智能(AI)方法不同,LLMs能够捕捉多词表达的细微含义。我们系统地评估了ChatGPT-4o预测具象性、效价和唤醒度的能力。在研究1中,ChatGPT-4o显示出与多词表达的人工具象性评级的高度相关性(r = 0.8)。在研究2中,这些发现针对单个词的效价和唤醒度评级进行了重复,与以往的AI模型相匹配或优于它们。研究3将效价和唤醒度分析扩展到多词表达,并显示出有希望的结果,尽管缺乏大规模的人工基准。这些发现突出了LLMs在生成与多词表达相关的有价值的心理语言学数据的潜力。为了帮助研究人员进行刺激选择,我们提供了包含126,397个英语单词和63,680个多词表达的AI规范的数据集,包括具象性、效价和唤醒度。

🔬 方法详解

问题定义:论文旨在解决多词表达(Multi-Word Expressions, MWEs)的具象性(Concreteness)、效价(Valence)和唤醒度(Arousal)的自动评估问题。现有方法,特别是传统的AI模型,难以准确捕捉MWEs的上下文语义,导致评估结果不准确。这限制了心理语言学研究中MWEs的使用,因为人工标注成本高昂。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的上下文理解和语义推理能力,直接预测MWEs的具象性、效价和唤醒度。LLMs通过预训练学习了丰富的语言知识,能够更好地理解MWEs的细微含义,从而提供更准确的评估。

技术框架:该研究主要采用ChatGPT-4o作为评估模型。研究分为三个阶段: 1. 具象性评估:使用ChatGPT-4o预测MWEs的具象性,并与人工评级进行相关性分析。 2. 效价和唤醒度评估(单字):使用ChatGPT-4o预测单个词的效价和唤醒度,并与现有AI模型和人工评级进行比较。 3. 效价和唤醒度评估(MWEs):使用ChatGPT-4o预测MWEs的效价和唤醒度,并进行初步分析。

关键创新:该研究的关键创新在于将大型语言模型应用于MWEs的心理语言学特征评估。与以往基于词向量或浅层神经网络的方法相比,LLMs能够更好地理解MWEs的上下文语义,从而提供更准确的评估结果。此外,该研究还构建了一个包含大量MWEs及其AI评估值的公开数据集,为心理语言学研究提供了宝贵的资源。

关键设计:研究中,ChatGPT-4o通过特定的prompt进行引导,以生成具象性、效价和唤醒度的预测值。具体prompt的设计细节未知,但可以推测其包含了对目标MWE的描述以及对所需评估值的明确指示。研究人员使用Pearson相关系数来评估ChatGPT-4o的预测值与人工评级之间的相关性。数据集包含126,397个英语单词和63,680个多词表达。

📊 实验亮点

研究表明,ChatGPT-4o在预测MWEs的具象性方面表现出色,与人工评级的相关性达到r = 0.8。在效价和唤醒度评估方面,ChatGPT-4o的性能与现有AI模型相当或更优。此外,该研究还构建了一个包含大量MWEs及其AI评估值的公开数据集,为心理语言学研究提供了宝贵的资源。

🎯 应用场景

该研究成果可广泛应用于心理语言学、自然语言处理和情感计算等领域。例如,可以利用AI评估值自动选择合适的MWEs作为实验材料,降低人工标注成本。此外,还可以将这些评估值用于情感分析、文本理解和人机交互等任务,提高系统的准确性和鲁棒性。未来,该方法有望扩展到其他语言和文化背景,促进跨语言心理语言学研究。

📄 摘要(原文)

This study investigates the potential of large language models (LLMs) to provide accurate estimates of concreteness, valence and arousal for multi-word expressions. Unlike previous artificial intelligence (AI) methods, LLMs can capture the nuanced meanings of multi-word expressions. We systematically evaluated ChatGPT-4o's ability to predict concreteness, valence and arousal. In Study 1, ChatGPT-4o showed strong correlations with human concreteness ratings (r = .8) for multi-word expressions. In Study 2, these findings were repeated for valence and arousal ratings of individual words, matching or outperforming previous AI models. Study 3 extended the prevalence and arousal analysis to multi-word expressions and showed promising results despite the lack of large-scale human benchmarks. These findings highlight the potential of LLMs for generating valuable psycholinguistic data related to multiword expressions. To help researchers with stimulus selection, we provide datasets with AI norms of concreteness, valence and arousal for 126,397 English single words and 63,680 multi-word expressions