Dancing with Deer: A Constructional Perspective on MWEs in the Era of LLMs
作者: Claire Bonial, Julia Bonn, Harish Tayyar Madabushi
分类: cs.CL
发布日期: 2025-08-21
备注: Chapter in Phraseology and Multiword Expressions, Language Science Press (to appear)
💡 一句话要点
利用构式语法视角,研究大型语言模型时代下多词表达的理解与泛化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多词表达 构式语法 大型语言模型 自然语言处理 语言习得
📋 核心要点
- 现有方法在处理多词表达时,难以捕捉其惯用性和组合性,缺乏统一的理论框架。
- 论文提出基于用法的构式语法视角,将多词表达视为意义与形式的配对,强调经验和语境的作用。
- 实验表明,大型语言模型在单次曝光后可以泛化多词表达的含义,但缺乏人类的组合推理能力。
📝 摘要(中文)
本文从基于用法的构式语法角度探讨了理解多词表达的益处。首先,回顾了构式语法的历史发展,它旨在用与非惯用结构相同的语法机制来解释惯用表达。然后,全面描述了构式,即任何大小(语素、词、短语)的意义与形式的配对,以及构式方法如何处理构式的习得和泛化。文中介绍了一个成功的案例研究,该案例利用构式模板来表示英语PropBank中的多词表达。由于构式可以处于任何形式级别或单元,因此本文进一步阐述了在高度多综合和粘着语阿拉帕霍语中,使用构式表示多义形态句法单元构式的优势。文中包含第二个案例研究,该案例利用构式模板在统一意义表示中表示这些多语素表达。最后,本文展示了说话者学习新的多词表达(如“dancing with deer”)与大型语言模型学习新多词表达的异同。实验表明,模型和说话者都可以基于单次使用来泛化新多词表达的含义。然而,只有说话者才能推理两个此类表达的组合,因为这需要将新形式与说话者一生中存储的、包含丰富的跨模态细节的构式范例进行比较。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)如何有效学习和泛化多词表达(MWEs)的问题。现有方法通常将MWEs视为独立的词汇单元,忽略了其内部结构和组合性,导致模型难以理解MWEs的惯用含义,并且泛化能力有限。此外,缺乏一个统一的理论框架来解释MWEs的学习和使用。
核心思路:论文的核心思路是采用基于用法的构式语法(Construction Grammar)视角来理解MWEs。构式语法认为,语言的各个层面(从语素到句子)都可以被视为意义与形式的配对,即构式。MWEs也是一种构式,其意义并非完全由其组成部分的意义组合而成,而是具有一定的惯用性。通过将MWEs视为构式,可以更好地捕捉其意义和用法,并促进模型的泛化能力。
技术框架:论文主要通过案例研究和实验来论证构式语法的有效性。首先,介绍了构式语法的基本概念和原理,包括构式的定义、习得和泛化机制。然后,展示了两个案例研究:一个是英语PropBank中利用构式模板表示MWEs,另一个是阿拉帕霍语中利用构式模板表示多义形态句法单元。最后,通过实验比较了LLM和人类在学习和泛化新MWEs方面的表现。
关键创新:论文的关键创新在于将构式语法应用于MWEs的学习和泛化,并将其与LLM的学习机制进行对比。这为理解LLM的语言能力提供了一个新的视角,并为改进LLM的MWEs处理能力提供了理论基础。论文强调了人类语言学习中经验和语境的重要性,以及跨模态信息在MWEs理解中的作用。
关键设计:论文的实验设计主要关注LLM和人类在学习和泛化新MWEs方面的表现。实验中,模型和人类都只接触到一次新MWE的使用,然后测试其对该MWE含义的理解和泛化能力。实验结果表明,LLM可以基于单次曝光来泛化新MWE的含义,但缺乏人类的组合推理能力。这表明LLM在MWEs处理方面仍然存在局限性,需要进一步的研究和改进。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大型语言模型在单次接触后可以泛化新多词表达的含义,但无法像人类一样进行组合推理。这揭示了当前大型语言模型在理解和处理复杂语言现象方面的局限性,强调了人类认知在语言学习中的重要作用。
🎯 应用场景
该研究成果可应用于自然语言处理的多个领域,例如机器翻译、文本摘要、情感分析等。通过提升模型对多词表达的理解能力,可以提高这些任务的性能和准确性。此外,该研究还可以为语言教学和学习提供新的思路和方法。
📄 摘要(原文)
In this chapter, we argue for the benefits of understanding multiword expressions from the perspective of usage-based, construction grammar approaches. We begin with a historical overview of how construction grammar was developed in order to account for idiomatic expressions using the same grammatical machinery as the non-idiomatic structures of language. We cover a comprehensive description of constructions, which are pairings of meaning with form of any size (morpheme, word, phrase), as well as how constructional approaches treat the acquisition and generalization of constructions. We describe a successful case study leveraging constructional templates for representing multiword expressions in English PropBank. Because constructions can be at any level or unit of form, we then illustrate the benefit of a constructional representation of multi-meaningful morphosyntactic unit constructions in Arapaho, a highly polysynthetic and agglutinating language. We include a second case study leveraging constructional templates for representing these multi-morphemic expressions in Uniform Meaning Representation. Finally, we demonstrate the similarities and differences between a usage-based explanation of a speaker learning a novel multiword expression, such as "dancing with deer," and that of a large language model. We present experiments showing that both models and speakers can generalize the meaning of novel multiword expressions based on a single exposure of usage. However, only speakers can reason over the combination of two such expressions, as this requires comparison of the novel forms to a speaker's lifetime of stored constructional exemplars, which are rich with cross-modal details.