Do Large Language Models Understand Word Senses?

📄 arXiv: 2509.13905v1 📥 PDF

作者: Domenico Meconi, Simone Stirpe, Federico Martelli, Leonardo Lavalle, Roberto Navigli

分类: cs.CL, cs.AI

发布日期: 2025-09-17

备注: 20 pages, to be published in EMNLP2025


💡 一句话要点

评估大型语言模型对词义理解能力,并验证其在词义消歧任务中的有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 词义消歧 词义理解 自然语言处理 生成任务

📋 核心要点

  1. 现有对LLM词义理解能力的评估不足,缺乏与专门WSD系统的对比。
  2. 通过WSD任务和生成任务,评估LLM在理解和生成词义方面的能力。
  3. 实验表明,LLM在WSD任务中可与专用系统媲美,生成任务中词义解释准确率高达98%。

📝 摘要(中文)

理解上下文中词语的含义是大型语言模型(LLM)的一项基本能力。尽管进行了广泛的评估,但LLM真正掌握词义的程度仍未得到充分探索。本文通过评估i)指令调优的LLM的词义消歧(WSD)能力,将其性能与专门为此任务设计的最先进系统进行比较,以及ii)两个表现最佳的开源和闭源LLM在三种生成设置(定义生成、自由形式解释和示例生成)中理解词义的能力,来弥补这一差距。值得注意的是,我们发现,在WSD任务中,GPT-4o和DeepSeek-V3等领先模型的性能与专门的WSD系统相当,同时在不同领域和难度级别上表现出更大的鲁棒性。在生成任务中,结果表明LLM可以解释上下文中词语的含义,准确率高达98%,其中在自由形式解释任务中观察到最高的性能,这与它们的生成能力最吻合。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)是否真正理解词义,并量化其理解程度。现有方法主要集中在通用能力评估,缺乏对LLM词义理解能力的针对性评估,特别是与专门的词义消歧(WSD)系统相比。此外,现有方法较少关注LLM在生成任务中对词义的理解和应用。

核心思路:论文的核心思路是通过设计WSD任务和生成任务,直接评估LLM对词义的理解能力。WSD任务旨在考察LLM在区分词语不同含义方面的能力,而生成任务则考察LLM在生成定义、解释和示例时对词义的运用能力。通过将LLM与专门的WSD系统进行比较,可以更客观地评估LLM的词义理解水平。

技术框架:论文的评估框架包含两个主要部分:WSD任务和生成任务。WSD任务使用标准WSD数据集,评估LLM的词义消歧准确率。生成任务包含三个子任务:定义生成、自由形式解释和示例生成。对于每个子任务,研究人员设计了相应的提示语,并评估LLM生成的文本的质量和准确性。评估指标包括WSD准确率和生成文本的语义准确率。

关键创新:论文的关键创新在于同时评估LLM在判别式任务(WSD)和生成式任务中对词义的理解能力。通过这种综合评估,可以更全面地了解LLM的词义理解水平。此外,论文还比较了LLM与专门的WSD系统,从而更客观地评估了LLM的性能。

关键设计:在WSD任务中,论文使用了多个WSD数据集,涵盖不同的领域和难度级别。在生成任务中,论文设计了清晰明确的提示语,引导LLM生成高质量的文本。评估指标方面,论文采用了准确率等常用指标,并进行了人工评估,以确保评估结果的可靠性。

📊 实验亮点

实验结果表明,在WSD任务中,GPT-4o和DeepSeek-V3等领先模型的性能与专门的WSD系统相当,并且在不同领域和难度级别上表现出更强的鲁棒性。在生成任务中,LLM可以解释上下文中词语的含义,准确率高达98%,其中自由形式解释任务表现最佳。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言处理任务中的性能,例如机器翻译、文本摘要和问答系统。更准确的词义理解有助于LLM生成更流畅、更自然的文本,并更好地理解用户的意图。此外,该研究还可以指导LLM的训练,使其更好地掌握词义知识。

📄 摘要(原文)

Understanding the meaning of words in context is a fundamental capability for Large Language Models (LLMs). Despite extensive evaluation efforts, the extent to which LLMs show evidence that they truly grasp word senses remains underexplored. In this paper, we address this gap by evaluating both i) the Word Sense Disambiguation (WSD) capabilities of instruction-tuned LLMs, comparing their performance to state-of-the-art systems specifically designed for the task, and ii) the ability of two top-performing open- and closed-source LLMs to understand word senses in three generative settings: definition generation, free-form explanation, and example generation. Notably, we find that, in the WSD task, leading models such as GPT-4o and DeepSeek-V3 achieve performance on par with specialized WSD systems, while also demonstrating greater robustness across domains and levels of difficulty. In the generation tasks, results reveal that LLMs can explain the meaning of words in context up to 98\% accuracy, with the highest performance observed in the free-form explanation task, which best aligns with their generative capabilities.