T-FREE: Subword Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

📄 arXiv: 2406.19223v2 📥 PDF

作者: Björn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-27 (更新: 2025-01-07)


💡 一句话要点

T-FREE:通过稀疏表示实现内存高效嵌入的无子词分词器生成式LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无分词器 稀疏表示 大型语言模型 低资源语言 跨语言迁移学习

📋 核心要点

  1. 现有分词器存在计算开销大、词汇使用效率低、对低资源语言支持不足等问题,限制了大型语言模型的发展。
  2. T-FREE通过字符三元组的稀疏激活模式直接嵌入单词,无需参考语料库,从而避免了传统分词器的局限性。
  3. 实验表明,T-FREE在下游任务中表现出竞争力,同时显著减少了参数量,并在跨语言迁移学习中取得了提升。

📝 摘要(中文)

分词器对于大型语言模型中的信息编码至关重要,但其发展最近停滞不前,并且存在固有的弱点。主要的局限性包括计算开销、无效的词汇使用以及不必要的大型嵌入和头部层。此外,它们的性能偏向于参考语料库,导致对代表性不足的语言的有效性降低。为了解决这些问题,我们提出了T-FREE,它通过字符三元组上的稀疏激活模式直接嵌入单词,并且不需要参考语料库。T-FREE固有地利用了形态相似性,并允许对嵌入层进行强大的压缩。在我们的详尽实验评估中,我们在这些层上实现了具有竞争力的下游性能,同时参数减少了85%以上。此外,T-FREE在跨语言迁移学习中显示出显着的改进。

🔬 方法详解

问题定义:现有的大型语言模型依赖于分词器将文本转换为模型可以处理的token序列。传统分词器存在诸多问题,例如计算复杂度高,需要大量的计算资源;词汇使用效率低,导致嵌入层和头部层参数量巨大;以及对特定语料库的偏向性,使得模型在处理低资源语言时性能下降。这些问题限制了模型的可扩展性和泛化能力。

核心思路:T-FREE的核心思路是摒弃传统的分词器,直接基于字符级别的特征进行单词嵌入。具体来说,它利用字符三元组(character triplets)的稀疏激活模式来表示单词。这种方法无需预先定义词汇表,可以更好地处理未登录词,并能有效利用单词的形态相似性。

技术框架:T-FREE的整体框架包括以下几个主要步骤:1. 将输入文本分解为字符三元组序列。2. 使用一个可学习的嵌入矩阵将每个字符三元组映射到一个高维向量。3. 对这些向量进行稀疏化处理,得到单词的稀疏表示。4. 将这些稀疏表示输入到后续的Transformer模型中进行处理。整个过程无需传统分词器。

关键创新:T-FREE最重要的创新点在于其无分词器的设计和基于稀疏表示的单词嵌入方法。与传统方法相比,T-FREE避免了分词器的计算开销和词汇表限制,能够更好地处理低资源语言和未登录词。此外,稀疏表示能够有效地压缩嵌入层,减少模型参数量。

关键设计:T-FREE的关键设计包括:1. 使用字符三元组作为基本的语义单元,以捕捉单词的形态信息。2. 使用L1正则化或其它稀疏化技术来约束嵌入向量,鼓励模型学习稀疏表示。3. 设计合适的损失函数来优化嵌入矩阵,例如对比学习损失或掩码语言模型损失。4. 嵌入向量的维度和稀疏度是重要的超参数,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,T-FREE在下游任务中取得了与传统分词器相当甚至更好的性能,同时参数量减少了85%以上。此外,T-FREE在跨语言迁移学习中表现出显著的优势,表明其具有更好的泛化能力。这些结果验证了T-FREE的有效性和优越性。

🎯 应用场景

T-FREE具有广泛的应用前景,尤其是在低资源语言处理、跨语言迁移学习和模型压缩等领域。它可以用于构建更高效、更通用的语言模型,并降低模型部署的成本。此外,T-FREE还可以应用于机器翻译、文本摘要、问答系统等各种自然语言处理任务。

📄 摘要(原文)

Tokenizers are crucial for encoding information in Large Language Models, but their development has recently stagnated, and they contain inherent weaknesses. Major limitations include computational overhead, ineffective vocabulary use, and unnecessarily large embedding and head layers. Additionally, their performance is biased towards a reference corpus, leading to reduced effectiveness for underrepresented languages. To remedy these issues, we propose T-FREE, which directly embeds words through sparse activation patterns over character triplets, and does not require a reference corpus. T-FREE inherently exploits morphological similarities and allows for strong compression of embedding layers. In our exhaustive experimental evaluation, we achieve competitive downstream performance with a parameter reduction of more than 85% on these layers. Further, T-FREE shows significant improvements in cross-lingual transfer learning.