Probing Large Language Models for Scalar Adjective Lexical Semantics and Scalar Diversity Pragmatics

📄 arXiv: 2404.03301v1 📥 PDF

作者: Fangru Lin, Daniel Altshuler, Janet B. Pierrehumbert

分类: cs.CL

发布日期: 2024-04-04

备注: Accepted for the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)


💡 一句话要点

探讨大型语言模型在标量形容词语义与多样性语用学中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 标量形容词 语义理解 语用学 标量多样性 自然语言处理 对比实验

📋 核心要点

  1. 现有大型语言模型在理解标量形容词的语义和多样性方面存在不足,尤其是在标量多样性理解上表现不佳。
  2. 本研究通过探测不同家族的大型语言模型,评估其对标量形容词的词汇语义和标量多样性的理解能力。
  3. 实验结果表明,虽然模型具备丰富的词汇语义知识,但对标量多样性的理解能力有限,且较大模型的表现并不总是优于小模型。

📝 摘要(中文)

标量形容词涉及不同领域的尺度,并在每个尺度内强度各异(例如,'certain'在可能性尺度上比'likely'更强)。标量含义是通过考虑可能的替代陈述而产生的,某些标量形容词更可能触发标量含义,这种现象称为标量多样性。本研究探讨了不同家族的大型语言模型(如GPT-4)对标量形容词的词汇语义和标量多样性这一特定语用学方面的理解。研究发现,尽管模型编码了丰富的词汇语义信息,但对标量多样性的理解并不理想。此外,比较了不同规模和复杂度的模型,结果显示较大的模型并不总是表现更好。最后,通过利用语言直觉和模型训练目标来解释我们的探测结果。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在标量形容词的词汇语义和标量多样性理解方面的不足。现有方法未能有效捕捉标量多样性这一复杂的语用现象。

核心思路:通过对不同家族的大型语言模型进行探测,评估其对标量形容词的理解能力,尤其是标量多样性。研究设计旨在揭示模型在语义和语用理解上的差异。

技术框架:研究采用了对比实验的方法,分析不同规模和复杂度的语言模型在标量形容词理解上的表现。主要模块包括模型选择、数据集构建和结果分析。

关键创新:本研究的创新点在于系统性地探测了大型语言模型对标量形容词的语义知识与标量多样性的理解差异,揭示了模型在这两者之间的复杂关系。

关键设计:研究中使用了多种标量形容词作为测试对象,并设计了相应的评估指标,以量化模型在标量多样性理解上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,虽然大型语言模型在标量形容词的词汇语义上表现出色,但在标量多样性理解上存在显著不足。不同规模的模型在标量多样性理解上的表现差异,表明模型大小并不是性能提升的唯一因素。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和语义理解等。通过提升模型对标量形容词的理解能力,可以改善人机交互的自然性和准确性,推动智能助手和自动翻译系统的发展。

📄 摘要(原文)

Scalar adjectives pertain to various domain scales and vary in intensity within each scale (e.g. certain is more intense than likely on the likelihood scale). Scalar implicatures arise from the consideration of alternative statements which could have been made. They can be triggered by scalar adjectives and require listeners to reason pragmatically about them. Some scalar adjectives are more likely to trigger scalar implicatures than others. This phenomenon is referred to as scalar diversity. In this study, we probe different families of Large Language Models such as GPT-4 for their knowledge of the lexical semantics of scalar adjectives and one specific aspect of their pragmatics, namely scalar diversity. We find that they encode rich lexical-semantic information about scalar adjectives. However, the rich lexical-semantic knowledge does not entail a good understanding of scalar diversity. We also compare current models of different sizes and complexities and find that larger models are not always better. Finally, we explain our probing results by leveraging linguistic intuitions and model training objectives.