Evaluating Large Language Models on Multiword Expressions in Multilingual and Code-Switched Contexts

📄 arXiv: 2504.20051v1 📥 PDF

作者: Frances Laureano De Leon, Harish Tayyar Madabushi, Mark G. Lee

分类: cs.CL

发布日期: 2025-04-10


💡 一句话要点

评估大型语言模型在多语言和代码切换环境中处理多词表达的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多词表达 大型语言模型 多语言 代码切换 自然语言处理

📋 核心要点

  1. 大型语言模型在处理多词表达的歧义性方面存在挑战,尤其是在低频上下文中。
  2. 论文通过构建新的代码切换数据集和任务,评估模型在多语言环境下的多词表达理解能力。
  3. 实验结果表明,即使是GPT-4等先进模型,在多词表达处理上仍不如xlm-RoBERTa-base基线。

📝 摘要(中文)

多词表达(MWEs)具有非组合语义和句法不规则性,是语言细微之处的体现。这些表达可以被字面或习语化地使用,导致意义的显著变化。尽管大型语言模型在许多任务中表现出强大的性能,但它们处理此类语言微妙之处的能力仍然不确定。因此,本研究评估了最先进的语言模型如何处理潜在习语多词表达的歧义性,尤其是在不太常见的上下文中,在这些上下文中,模型不太可能依赖于记忆。通过评估葡萄牙语、加利西亚语以及英语的模型,并使用一种新的代码切换数据集和一项新的任务,我们发现大型语言模型尽管具有优势,但在处理细微语言方面仍然存在困难。特别是,我们发现包括GPT-4在内的最新模型在检测和语义任务中都未能优于xlm-roBERTa-base基线,并且在我们引入的新任务中表现尤其差,尽管它与现有任务相似。总的来说,我们的结果表明,多词表达,尤其是那些模棱两可的表达,仍然对模型构成挑战。

🔬 方法详解

问题定义:论文旨在评估大型语言模型在多语言和代码切换环境中处理多词表达(MWEs)的能力。现有方法在处理MWEs的非组合语义和句法不规则性时存在困难,尤其是在低频上下文中,模型容易依赖记忆而非真正理解。此外,现有研究较少关注多语言和代码切换环境下的MWEs处理。

核心思路:论文的核心思路是通过构建新的数据集和任务,系统性地评估大型语言模型在不同语言和代码切换场景下对MWEs的理解能力。通过引入歧义性MWEs,并将其置于低频上下文中,迫使模型进行更深层次的语义推理,而非简单地记忆。

技术框架:论文构建了包含英语、葡萄牙语和加利西亚语的多语言数据集,并设计了代码切换数据集。同时,设计了两种任务:MWE检测任务和MWE语义理解任务。MWE检测任务旨在判断给定的短语是否为MWE,而语义理解任务则要求模型理解MWE在特定上下文中的含义。评估了包括GPT-4和xlm-RoBERTa-base在内的多个大型语言模型。

关键创新:论文的关键创新在于:1) 构建了新的代码切换数据集,用于评估模型在更复杂的语言环境下的MWE处理能力;2) 设计了新的MWE语义理解任务,更全面地评估模型对MWE含义的理解;3) 系统性地评估了多个大型语言模型在多语言和代码切换环境下的MWE处理能力,揭示了现有模型的不足。

关键设计:代码切换数据集的构建方式未知,论文中未详细描述。MWE检测任务可能采用了二分类的设置,而语义理解任务的具体实现方式也未知。损失函数和网络结构等技术细节未在摘要中提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-4等先进模型,在MWE检测和语义理解任务中也未能优于xlm-RoBERTa-base基线。特别是在论文提出的新任务上,GPT-4的性能表现尤其不佳,这表明大型语言模型在处理细微语言方面仍然存在显著的挑战。具体的性能数据和提升幅度在摘要中未给出。

🎯 应用场景

该研究成果可应用于提升机器翻译、情感分析、对话系统等自然语言处理任务的性能。尤其是在处理多语言和代码切换文本时,提高模型对多词表达的理解能力至关重要。未来的研究可以探索如何更好地利用上下文信息和外部知识来增强模型对MWEs的理解,从而构建更鲁棒和智能的自然语言处理系统。

📄 摘要(原文)

Multiword expressions, characterised by non-compositional meanings and syntactic irregularities, are an example of nuanced language. These expressions can be used literally or idiomatically, leading to significant changes in meaning. While large language models have demonstrated strong performance across many tasks, their ability to handle such linguistic subtleties remains uncertain. Therefore, this study evaluates how state-of-the-art language models process the ambiguity of potentially idiomatic multiword expressions, particularly in contexts that are less frequent, where models are less likely to rely on memorisation. By evaluating models across in Portuguese and Galician, in addition to English, and using a novel code-switched dataset and a novel task, we find that large language models, despite their strengths, struggle with nuanced language. In particular, we find that the latest models, including GPT-4, fail to outperform the xlm-roBERTa-base baselines in both detection and semantic tasks, with especially poor performance on the novel tasks we introduce, despite its similarity to existing tasks. Overall, our results demonstrate that multiword expressions, especially those which are ambiguous, continue to be a challenge to models.