Revisiting subword tokenization: A case study on affixal negation in large language models

📄 arXiv: 2404.02421v2 📥 PDF

作者: Thinh Hung Truong, Yulia Otmakhova, Karin Verspoor, Trevor Cohn, Timothy Baldwin

分类: cs.CL

发布日期: 2024-04-03 (更新: 2024-04-04)

备注: NAACL 2024


💡 一句话要点

研究词缀否定对大型语言模型的影响及其分词方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 词缀否定 子词分词 自然语言处理 模型性能

📋 核心要点

  1. 核心问题:现有大型语言模型在处理词缀否定时面临挑战,尤其是其分词器缺乏形态学合理性。
  2. 方法要点:通过对不同子词分词方法的实验,分析分词性能与否定敏感性之间的关系。
  3. 实验或效果:研究表明,尽管存在分词准确性与否定检测性能的不匹配,模型仍能有效识别词缀否定的意义。

📝 摘要(中文)

本研究测量了词缀否定对现代英语大型语言模型(LLMs)的影响。在词缀否定中,否定意义通过负向语素表达,这对LLMs构成挑战,因为它们的分词器通常缺乏形态学合理性。我们进行了广泛的实验,使用不同的子词分词方法,揭示了分词性能与否定敏感性之间的相互作用。尽管在分词准确性与否定检测性能之间存在一些有趣的不匹配,但我们表明,模型总体上能够可靠地识别词缀否定的意义。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在处理词缀否定时的性能问题。现有方法的痛点在于,LLMs的分词器往往无法合理处理形态学结构,导致否定意义的识别困难。

核心思路:论文通过对不同子词分词方法的比较,探讨其对词缀否定的影响,旨在揭示分词性能与否定敏感性之间的关系,以提高模型的理解能力。

技术框架:研究采用了多种大型语言模型,结合不同的子词分词策略进行实验。主要模块包括数据预处理、模型训练、性能评估等。

关键创新:本研究的创新点在于系统性地分析了分词准确性与否定检测性能之间的关系,揭示了二者之间的潜在不匹配,提供了新的视角来理解LLMs的语言处理能力。

关键设计:在实验中,采用了多种分词策略,并对模型的超参数进行了细致调整,以确保实验结果的可靠性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,尽管在分词准确性与否定检测性能之间存在不匹配,模型总体上仍能有效识别词缀否定的意义。这一发现为进一步优化大型语言模型的分词策略提供了重要依据。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和情感分析等。通过改进大型语言模型对词缀否定的理解能力,可以提升这些应用的准确性和鲁棒性,具有重要的实际价值和未来影响。

📄 摘要(原文)

In this work, we measure the impact of affixal negation on modern English large language models (LLMs). In affixal negation, the negated meaning is expressed through a negative morpheme, which is potentially challenging for LLMs as their tokenizers are often not morphologically plausible. We conduct extensive experiments using LLMs with different subword tokenization methods, which lead to several insights on the interaction between tokenization performance and negation sensitivity. Despite some interesting mismatches between tokenization accuracy and negation detection performance, we show that models can, on the whole, reliably recognize the meaning of affixal negation.