Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence

📄 arXiv: 2411.07533v3 📥 PDF

作者: Linyang He, Ercong Nie, Helmut Schmid, Hinrich Schütze, Nima Mesgarani, Jonathan Brennan

分类: cs.CL

发布日期: 2024-11-12 (更新: 2025-07-12)


💡 一句话要点

提出神经语言学方法以评估大型语言模型的语言能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 神经语言学 心理语言学 语言能力评估 最小对数据集 多语言理解 激活模式分析

📋 核心要点

  1. 现有的心理语言学评估方法往往依赖统计规则,无法准确反映大型语言模型的真实语言能力。
  2. 本研究提出了一种神经语言学评估方法,通过结合最小对和诊断探测,深入分析模型的激活模式。
  3. 实验结果显示,语言表现与能力存在显著差异,且在形式方面的能力和表现优于意义。

📝 摘要(中文)

本研究探讨了大型语言模型(LLMs)在符号(形式)和所指(意义)方面的语言理解,通过区分心理语言学和神经语言学两种评估范式。传统的心理语言学评估往往反映统计规则,可能无法准确表示LLMs的真实语言能力。我们引入了一种神经语言学方法,结合最小对和诊断探测,分析模型层的激活模式。这种方法允许详细检查LLMs如何表示形式和意义,以及这些表示在不同语言间的一致性。研究结果表明:语言表现与能力是不同的;直接概率测量可能无法准确评估语言能力;指令调优不会显著改变能力但能提高表现;LLMs在形式方面的能力和表现高于意义。此外,我们为中文(COMPS-ZH)和德语(COMPS-DE)引入了新的概念最小对数据集,补充了现有的英语数据集。

🔬 方法详解

问题定义:本研究旨在解决传统心理语言学评估方法无法准确反映大型语言模型(LLMs)真实语言能力的问题,尤其是在形式与意义的理解上存在的差距。

核心思路:通过引入神经语言学评估方法,结合最小对和诊断探测,分析模型的激活模式,以更全面地理解LLMs的语言能力。

技术框架:研究首先构建了一个评估框架,包含数据集准备、模型激活模式分析和结果对比三个主要模块。数据集包括新创建的中文和德语最小对数据集。

关键创新:本研究的创新在于引入了神经语言学的方法,强调了语言表现与能力的区别,并提供了新的数据集以支持多语言评估。与传统方法相比,这种方法能够更准确地揭示LLMs的语言理解机制。

关键设计:在实验中,采用了特定的损失函数和参数设置,以确保模型在不同语言间的表现一致性,并通过激活模式的分析来评估模型的语言能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,心理语言学和神经语言学方法揭示了语言表现与能力的显著差异。特别是,LLMs在形式方面的能力和表现均高于意义,且指令调优对能力的提升有限,但能显著改善表现。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和语言教育等。通过更准确地评估大型语言模型的语言能力,能够为模型的优化和应用提供理论支持,推动相关技术的发展。

📄 摘要(原文)

This study investigates the linguistic understanding of Large Language Models (LLMs) regarding signifier (form) and signified (meaning) by distinguishing two LLM assessment paradigms: psycholinguistic and neurolinguistic. Traditional psycholinguistic evaluations often reflect statistical rules that may not accurately represent LLMs' true linguistic competence. We introduce a neurolinguistic approach, utilizing a novel method that combines minimal pair and diagnostic probing to analyze activation patterns across model layers. This method allows for a detailed examination of how LLMs represent form and meaning, and whether these representations are consistent across languages. We found: (1) Psycholinguistic and neurolinguistic methods reveal that language performance and competence are distinct; (2) Direct probability measurement may not accurately assess linguistic competence; (3) Instruction tuning won't change much competence but improve performance; (4) LLMs exhibit higher competence and performance in form compared to meaning. Additionally, we introduce new conceptual minimal pair datasets for Chinese (COMPS-ZH) and German (COMPS-DE), complementing existing English datasets.