Do Large Language Models Understand Word Senses?

📄 arXiv: 2509.13905v1 📥 PDF

作者: Domenico Meconi, Simone Stirpe, Federico Martelli, Leonardo Lavalle, Roberto Navigli

分类: cs.CL, cs.AI

发布日期: 2025-09-17

备注: 20 pages, to be published in EMNLP2025


💡 一句话要点

评估大型语言模型对词义理解能力,并验证其在词义消歧任务上的有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 词义消歧 词义理解 自然语言处理 生成式模型

📋 核心要点

  1. 现有对LLM词义理解的评估不足,缺乏对其真正掌握词义能力的深入分析。
  2. 通过WSD任务和生成任务,评估LLM在不同场景下的词义理解能力。
  3. 实验表明,LLM在WSD任务中可与专用系统媲美,生成任务中词义解释准确率高达98%。

📝 摘要(中文)

本文旨在评估大型语言模型(LLMs)在理解词语在上下文中的意义方面的能力。尽管已经进行了大量的评估工作,但LLMs真正掌握词义的程度仍未得到充分探索。本文通过评估以下两个方面来填补这一空白:i) 指令调整的LLMs的词义消歧(WSD)能力,将其性能与专门为此任务设计的最先进系统进行比较;ii) 评估两个表现最佳的开源和闭源LLMs在三种生成设置(定义生成、自由形式解释和示例生成)中理解词义的能力。值得注意的是,我们发现,在WSD任务中,GPT-4o和DeepSeek-V3等领先模型的性能与专门的WSD系统相当,同时在不同领域和难度级别上表现出更强的鲁棒性。在生成任务中,结果表明LLMs可以解释上下文中词语的含义,准确率高达98%,其中在自由形式解释任务中观察到最高的性能,这与它们的生成能力最为吻合。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)是否真正理解词义的问题。现有方法主要集中在通用能力评估,缺乏对词义理解这一特定能力的深入分析,难以判断LLMs是否只是通过记忆或表面模式匹配来完成任务,而非真正理解词义。

核心思路:论文的核心思路是通过设计词义消歧(WSD)任务和词义生成任务,来考察LLMs在不同场景下对词义的理解能力。WSD任务考察LLMs选择正确词义的能力,而生成任务则考察LLMs能否用自然语言解释或举例说明词义,从而更全面地评估其词义理解水平。

技术框架:论文采用两种主要的评估框架:1) 词义消歧(WSD):将LLMs作为分类器,输入包含目标词语的句子,输出最合适的词义。与专门的WSD系统进行性能比较。2) 词义生成:包括定义生成、自由形式解释和示例生成三种任务。输入目标词语和上下文,LLMs生成相应的定义、解释或示例。人工评估生成内容的准确性。

关键创新:论文的关键创新在于结合了判别式(WSD)和生成式(词义生成)两种评估方式,更全面地考察LLMs的词义理解能力。此外,论文还关注LLMs在不同领域和难度级别上的鲁棒性,以及开源和闭源LLMs之间的性能差异。

关键设计:在WSD任务中,使用了多个WSD数据集,并针对LLMs的特点进行了prompt设计。在词义生成任务中,采用了人工评估的方式,以确保评估结果的准确性。对于不同的生成任务,设计了不同的prompt模板,以引导LLMs生成高质量的输出。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,在WSD任务中,GPT-4o和DeepSeek-V3等领先模型的性能与专门的WSD系统相当,并且在不同领域和难度级别上表现出更强的鲁棒性。在生成任务中,LLMs可以解释上下文中词语的含义,准确率高达98%,其中自由形式解释任务表现最佳。

🎯 应用场景

该研究成果可应用于提升LLMs在自然语言处理任务中的性能,例如机器翻译、文本摘要、问答系统等。更深入的词义理解能力有助于LLMs更准确地把握文本含义,从而生成更流畅、更自然的输出。此外,该研究也有助于开发更可靠、更智能的对话系统和智能助手。

📄 摘要(原文)

Understanding the meaning of words in context is a fundamental capability for Large Language Models (LLMs). Despite extensive evaluation efforts, the extent to which LLMs show evidence that they truly grasp word senses remains underexplored. In this paper, we address this gap by evaluating both i) the Word Sense Disambiguation (WSD) capabilities of instruction-tuned LLMs, comparing their performance to state-of-the-art systems specifically designed for the task, and ii) the ability of two top-performing open- and closed-source LLMs to understand word senses in three generative settings: definition generation, free-form explanation, and example generation. Notably, we find that, in the WSD task, leading models such as GPT-4o and DeepSeek-V3 achieve performance on par with specialized WSD systems, while also demonstrating greater robustness across domains and levels of difficulty. In the generation tasks, results reveal that LLMs can explain the meaning of words in context up to 98\% accuracy, with the highest performance observed in the free-form explanation task, which best aligns with their generative capabilities.