Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

作者: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli

分类: cs.CL

发布日期: 2025-04-23

💡 一句话要点

提出语义对齐词汇适配(SAVA)方法，优化LLM意大利语处理，提升效率并降低token冗余。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 词汇适配 语义对齐 意大利语 神经映射

📋 核心要点

现有LLM主要针对英语设计，导致在处理其他语言时效率低下，token冗余高，推理速度慢。
论文提出语义对齐词汇适配（SAVA）方法，利用神经映射进行词汇替换，优化LLM的词汇表。
实验表明，SAVA能有效降低token冗余，提升模型性能，并可通过持续训练恢复性能。

📝 摘要（中文）

预训练大型语言模型（LLM）的数量正在稳步增长，但大多数主要针对英语设计。虽然最先进的LLM可以处理其他语言，但由于语言污染或一定程度的多语言预训练数据，它们并未针对非英语语言进行优化，导致低效的编码（高token“fertility”）和较慢的推理速度。在这项工作中，我们彻底比较了各种词汇适配技术，用于优化英语LLM以适应意大利语，并提出了语义对齐词汇适配（SAVA），这是一种利用神经映射进行词汇替换的新方法。SAVA在多个下游任务中实现了有竞争力的性能，增强了基于对齐的策略。我们适配了两个LLM：Mistral-7b-v0.1，降低了25%的token fertility，以及Llama-3.1-8B，优化了词汇表并将参数数量减少了10亿。我们表明，在适配词汇表之后，这些模型可以通过相对有限的目标语言持续训练阶段来恢复其性能。最后，我们测试了适配模型在各种多项选择和生成任务中的能力。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）主要针对英语设计，直接应用于意大利语等其他语言时，存在token fertility过高的问题，即需要更多的token来表示相同含义的文本，导致编码效率低下和推理速度降低。现有的词汇适配方法可能无法充分利用语义信息，导致性能提升有限。

核心思路：论文的核心思路是通过语义对齐来优化LLM的词汇表，使其更适合意大利语。具体而言，通过神经映射学习英语和意大利语词汇之间的对应关系，然后用更适合意大利语的token替换原始词汇表中的token，从而降低token fertility并提高编码效率。

技术框架：整体框架包括以下几个主要阶段：1) 词汇对齐：使用神经映射模型学习英语和意大利语词汇之间的语义对应关系。2) 词汇替换：根据学习到的对应关系，用更适合意大利语的token替换原始LLM词汇表中的token。3) 持续训练：在适配后的词汇表上，使用意大利语数据对LLM进行持续训练，以恢复模型性能。

关键创新：SAVA的关键创新在于其语义对齐的词汇适配方法。与传统的基于统计或规则的词汇适配方法不同，SAVA利用神经映射模型学习词汇之间的语义关系，从而能够更准确地选择合适的替换token，并更好地保留模型的语义信息。

关键设计：在词汇对齐阶段，使用了预训练的跨语言词嵌入模型来初始化神经映射模型。在词汇替换阶段，使用了贪心算法选择替换token，并设置了阈值来控制替换的比例。在持续训练阶段，使用了较小的学习率和较短的训练周期，以避免过度拟合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SAVA方法能够有效降低token fertility，Mistral-7b-v0.1模型降低了25%，并且在多个下游任务中取得了有竞争力的性能。通过适配词汇表，Llama-3.1-8B模型在减少10亿参数的同时，仍然能够保持其性能水平。持续训练能够有效恢复模型在目标语言上的性能。

🎯 应用场景

该研究成果可应用于各种自然语言处理任务，尤其是在资源匮乏的语言上。通过优化LLM的词汇表，可以提高模型在这些语言上的性能，并降低计算成本。此外，该方法还可以推广到其他语言，为构建更高效的多语言LLM提供了一种新的思路。

📄 摘要（原文）

The number of pretrained Large Language Models (LLMs) is increasing steadily, though the majority are designed predominantly for the English language. While state-of-the-art LLMs can handle other languages, due to language contamination or some degree of multilingual pretraining data, they are not optimized for non-English languages, leading to inefficient encoding (high token "fertility") and slower inference speed. In this work, we thoroughly compare a variety of vocabulary adaptation techniques for optimizing English LLMs for the Italian language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a novel method that leverages neural mapping for vocabulary substitution. SAVA achieves competitive performance across multiple downstream tasks, enhancing grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and reducing the number of parameters by 1 billion. We show that, following the adaptation of the vocabulary, these models can recover their performance with a relatively limited stage of continual training on the target language. Finally, we test the capabilities of the adapted models on various multi-choice and generative tasks.

Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理