Revisiting Word Embeddings in the LLM Era
作者: Yash Mahajan, Matthew Freestone, Sathyanarayanan Aakur, Santu Karmaker
分类: cs.CL
发布日期: 2025-02-26 (更新: 2025-03-01)
备注: This work was intended as a replacement of the older version, arXiv:2402.11094, and any subsequent updates will appear there
💡 一句话要点
对比研究LLM与经典词嵌入,揭示LLM时代词嵌入的优势与局限
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 词嵌入 语义表示 对比学习 自然语言处理
📋 核心要点
- 现有研究对LLM嵌入的优势来源不明,未明确区分规模效应与嵌入质量。
- 论文系统比较LLM与经典词嵌入,考察其在不同语境下的语义表示能力。
- 实验表明LLM在反语境化任务中表现优异,而经典模型在细粒度语义任务中仍具优势。
📝 摘要(中文)
大型语言模型(LLM)最近在各种NLP任务中展现出显著的进步。因此,一种流行的趋势是NLP研究人员从这些大型仅解码器模型中提取词/句子/文档嵌入,并将它们用于各种推理任务,并取得了可喜的成果。然而,LLM诱导的嵌入性能的提高仅仅是因为规模的原因,还是因为它们产生的底层嵌入与Word2Vec、GloVe、Sentence-BERT(SBERT)或Universal Sentence Encoder(USE)等经典编码模型有显著不同,目前尚不清楚。本文通过系统地比较经典的反语境化和语境化词嵌入与LLM诱导的嵌入,来研究这个核心问题。结果表明,LLM在反语境化设置中能更紧密地聚类语义相关的词,并在类比任务中表现更好。然而,在语境化设置中,像SimCSE这样的经典模型在句子级相似性评估任务中通常优于LLM,突显了它们在细粒度语义方面的持续相关性。
🔬 方法详解
问题定义:论文旨在探究LLM产生的词嵌入的性能提升,是源于模型规模的扩大,还是由于其底层嵌入的质量优于传统的词嵌入模型(如Word2Vec、GloVe、SBERT、USE)。现有研究缺乏对LLM嵌入与经典嵌入的系统性比较,无法明确LLM嵌入的优势所在。
核心思路:论文的核心思路是通过对比LLM产生的词嵌入与经典词嵌入模型在不同任务上的表现,来评估LLM嵌入的语义表示能力。通过区分反语境化(decontextualized)和语境化(contextualized)两种设置,分析LLM嵌入在不同语境下的优势与局限。
技术框架:论文的技术框架主要包括以下几个步骤:1. 选取具有代表性的LLM模型和经典词嵌入模型;2. 在反语境化设置下,评估模型在词义相似度、词语类比等任务上的表现;3. 在语境化设置下,评估模型在句子相似度等任务上的表现;4. 对比不同模型在不同任务上的性能,分析LLM嵌入的优势与局限。
关键创新:论文的关键创新在于对LLM嵌入与经典嵌入进行了系统性的对比研究,并区分了反语境化和语境化两种设置。这种对比分析有助于更深入地理解LLM嵌入的语义表示能力,并为后续研究提供指导。
关键设计:论文的关键设计包括:1. 选取了具有代表性的LLM模型,如decoder-only模型;2. 选取了常用的经典词嵌入模型,如Word2Vec、GloVe、SBERT、USE;3. 选择了合适的评估任务,如词义相似度、词语类比、句子相似度等;4. 采用了标准的评估指标,如Spearman相关系数、余弦相似度等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在反语境化设置下,LLM在词义相似度和词语类比任务中表现优于经典词嵌入模型。例如,LLM能够更紧密地聚类语义相关的词。然而,在语境化设置下,SimCSE等经典模型在句子相似度评估任务中表现优于LLM,表明经典模型在细粒度语义表示方面仍具有优势。
🎯 应用场景
该研究成果可应用于自然语言处理的多个领域,例如信息检索、文本分类、情感分析等。通过选择合适的词嵌入模型,可以提高这些任务的性能。此外,该研究还可以为LLM的优化和改进提供指导,例如,可以针对LLM在细粒度语义表示方面的不足进行改进。
📄 摘要(原文)
Large Language Models (LLMs) have recently shown remarkable advancement in various NLP tasks. As such, a popular trend has emerged lately where NLP researchers extract word/sentence/document embeddings from these large decoder-only models and use them for various inference tasks with promising results. However, it is still unclear whether the performance improvement of LLM-induced embeddings is merely because of scale or whether underlying embeddings they produce significantly differ from classical encoding models like Word2Vec, GloVe, Sentence-BERT (SBERT) or Universal Sentence Encoder (USE). This is the central question we investigate in the paper by systematically comparing classical decontextualized and contextualized word embeddings with the same for LLM-induced embeddings. Our results show that LLMs cluster semantically related words more tightly and perform better on analogy tasks in decontextualized settings. However, in contextualized settings, classical models like SimCSE often outperform LLMs in sentence-level similarity assessment tasks, highlighting their continued relevance for fine-grained semantics.