Derivational Morphology Reveals Analogical Generalization in Large Language Models

📄 arXiv: 2411.07990v1 📥 PDF

作者: Valentin Hofmann, Leonie Weissweiler, David Mortensen, Hinrich Schütze, Janet Pierrehumbert

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-11-12


💡 一句话要点

提出类比过程以揭示大型语言模型的语言推广机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 类比过程 语言推广 形容词名词化 规则学习 认知模型 自然语言处理

📋 核心要点

  1. 现有研究主要集中在规则基础的语言现象,未能充分探讨类比过程在语言推广中的作用。
  2. 本研究通过分析英语形容词名词化的变异性,提出了一种新方法来比较规则学习和类比学习模型的预测能力。
  3. 实验结果表明,类比模型在处理可变名词化模式的形容词时表现更佳,且GPT-J的行为对单词频率敏感,支持类比解释。

📝 摘要(中文)

本研究探讨了大型语言模型(LLMs)中语言推广的机制,特别是类比过程在其中的作用。以英语形容词名词化为例,研究引入了一种新方法,通过将规则学习和类比学习模型拟合到GPT-J的训练数据中,比较其对新造形容词的预测。结果显示,对于具有可变名词化模式的形容词,类比模型的预测效果显著优于规则模型。这一发现挑战了GPT-J在形容词名词化中的语言推广涉及规则的假设,表明存储示例上的相似性操作可能是其潜在机制。整体而言,研究表明类比过程在LLMs的语言推广中扮演了更重要的角色。

🔬 方法详解

问题定义:本研究旨在探讨大型语言模型(LLMs)中语言推广的机制,尤其是类比过程的作用。现有方法主要集中在规则基础的语言现象,未能充分考虑类比过程的影响,导致对LLMs语言能力的理解不够全面。

核心思路:研究通过分析英语形容词名词化的变异性,提出了一种新方法,比较规则学习和类比学习模型在LLMs训练数据上的预测能力,以揭示其语言推广的潜在机制。

技术框架:整体架构包括数据准备、模型拟合和预测比较三个主要阶段。首先,收集形容词名词化的训练数据;其次,构建规则和类比模型并进行拟合;最后,比较两种模型对新造形容词的预测结果。

关键创新:本研究的主要创新在于引入类比模型来解释LLMs的语言推广,尤其是在处理具有可变名词化模式的形容词时,类比模型的表现显著优于传统的规则模型。这一发现挑战了以往对LLMs语言能力的理解。

关键设计:在模型设计中,研究关注了单词频率对预测结果的影响,采用了适应性损失函数来优化模型性能,并在网络结构上进行了调整,以更好地捕捉形容词的变异性。通过这些设计,研究能够更准确地反映类比过程在语言推广中的作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,对于具有可变名词化模式的形容词,类比模型的预测准确性显著高于规则模型,表明类比过程在LLMs的语言推广中起着关键作用。这一发现为理解LLMs的语言能力提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过更好地理解大型语言模型的语言推广机制,研究可以帮助提升模型的生成能力和理解能力,进而推动智能助手和自动化文本生成等技术的发展。

📄 摘要(原文)

What mechanisms underlie linguistic generalization in large language models (LLMs)? This question has attracted considerable attention, with most studies analyzing the extent to which the language skills of LLMs resemble rules. As of yet, it is not known whether linguistic generalization in LLMs could equally well be explained as the result of analogical processes, which can be formalized as similarity operations on stored exemplars. A key shortcoming of prior research is its focus on linguistic phenomena with a high degree of regularity, for which rule-based and analogical approaches make the same predictions. Here, we instead examine derivational morphology, specifically English adjective nominalization, which displays notable variability. We introduce a new method for investigating linguistic generalization in LLMs: focusing on GPT-J, we fit cognitive models that instantiate rule-based and analogical learning to the LLM training data and compare their predictions on a set of nonce adjectives with those of the LLM, allowing us to draw direct conclusions regarding underlying mechanisms. As expected, rule-based and analogical models explain the predictions of GPT-J equally well for adjectives with regular nominalization patterns. However, for adjectives with variable nominalization patterns, the analogical model provides a much better match. Furthermore, GPT-J's behavior is sensitive to the individual word frequencies, even for regular forms, a behavior that is consistent with an analogical account of regular forms but not a rule-based one. These findings refute the hypothesis that GPT-J's linguistic generalization on adjective nominalization involves rules, suggesting similarity operations on stored exemplars as the underlying mechanism. Overall, our study suggests that analogical processes play a bigger role in the linguistic generalization of LLMs than previously thought.