Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
作者: Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli
分类: cs.CL
发布日期: 2025-04-23
💡 一句话要点
提出语义对齐词汇适配(SAVA)方法,优化LLM意大利语处理,提升效率并降低token冗余。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 词汇适配 语义对齐 意大利语 神经映射
📋 核心要点
- 现有LLM主要针对英语设计,导致在处理其他语言时效率低下,token冗余高,推理速度慢。
- 论文提出语义对齐词汇适配(SAVA)方法,利用神经映射进行词汇替换,优化LLM的词汇表。
- 实验表明,SAVA能有效降低token冗余,提升模型性能,并可通过持续训练恢复性能。
📝 摘要(中文)
预训练大型语言模型(LLM)的数量正在稳步增长,但大多数主要针对英语设计。虽然最先进的LLM可以处理其他语言,但由于语言污染或一定程度的多语言预训练数据,它们并未针对非英语语言进行优化,导致低效的编码(高token“fertility”)和较慢的推理速度。在这项工作中,我们彻底比较了各种词汇适配技术,用于优化英语LLM以适应意大利语,并提出了语义对齐词汇适配(SAVA),这是一种利用神经映射进行词汇替换的新方法。SAVA在多个下游任务中实现了有竞争力的性能,增强了基于对齐的策略。我们适配了两个LLM:Mistral-7b-v0.1,降低了25%的token fertility,以及Llama-3.1-8B,优化了词汇表并将参数数量减少了10亿。我们表明,在适配词汇表之后,这些模型可以通过相对有限的目标语言持续训练阶段来恢复其性能。最后,我们测试了适配模型在各种多项选择和生成任务中的能力。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)主要针对英语设计,直接应用于意大利语等其他语言时,存在token fertility过高的问题,即需要更多的token来表示相同含义的文本,导致编码效率低下和推理速度降低。现有的词汇适配方法可能无法充分利用语义信息,导致性能提升有限。
核心思路:论文的核心思路是通过语义对齐来优化LLM的词汇表,使其更适合意大利语。具体而言,通过神经映射学习英语和意大利语词汇之间的对应关系,然后用更适合意大利语的token替换原始词汇表中的token,从而降低token fertility并提高编码效率。
技术框架:整体框架包括以下几个主要阶段:1) 词汇对齐:使用神经映射模型学习英语和意大利语词汇之间的语义对应关系。2) 词汇替换:根据学习到的对应关系,用更适合意大利语的token替换原始LLM词汇表中的token。3) 持续训练:在适配后的词汇表上,使用意大利语数据对LLM进行持续训练,以恢复模型性能。
关键创新:SAVA的关键创新在于其语义对齐的词汇适配方法。与传统的基于统计或规则的词汇适配方法不同,SAVA利用神经映射模型学习词汇之间的语义关系,从而能够更准确地选择合适的替换token,并更好地保留模型的语义信息。
关键设计:在词汇对齐阶段,使用了预训练的跨语言词嵌入模型来初始化神经映射模型。在词汇替换阶段,使用了贪心算法选择替换token,并设置了阈值来控制替换的比例。在持续训练阶段,使用了较小的学习率和较短的训练周期,以避免过度拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAVA方法能够有效降低token fertility,Mistral-7b-v0.1模型降低了25%,并且在多个下游任务中取得了有竞争力的性能。通过适配词汇表,Llama-3.1-8B模型在减少10亿参数的同时,仍然能够保持其性能水平。持续训练能够有效恢复模型在目标语言上的性能。
🎯 应用场景
该研究成果可应用于各种自然语言处理任务,尤其是在资源匮乏的语言上。通过优化LLM的词汇表,可以提高模型在这些语言上的性能,并降低计算成本。此外,该方法还可以推广到其他语言,为构建更高效的多语言LLM提供了一种新的思路。
📄 摘要(原文)
The number of pretrained Large Language Models (LLMs) is increasing steadily, though the majority are designed predominantly for the English language. While state-of-the-art LLMs can handle other languages, due to language contamination or some degree of multilingual pretraining data, they are not optimized for non-English languages, leading to inefficient encoding (high token "fertility") and slower inference speed. In this work, we thoroughly compare a variety of vocabulary adaptation techniques for optimizing English LLMs for the Italian language, and put forward Semantic Alignment Vocabulary Adaptation (SAVA), a novel method that leverages neural mapping for vocabulary substitution. SAVA achieves competitive performance across multiple downstream tasks, enhancing grounded alignment strategies. We adapt two LLMs: Mistral-7b-v0.1, reducing token fertility by 25\%, and Llama-3.1-8B, optimizing the vocabulary and reducing the number of parameters by 1 billion. We show that, following the adaptation of the vocabulary, these models can recover their performance with a relatively limited stage of continual training on the target language. Finally, we test the capabilities of the adapted models on various multi-choice and generative tasks.