Exploring Design Choices for Building Language-Specific LLMs

📄 arXiv: 2406.14670v2 📥 PDF

作者: Atula Tejaswi, Nilesh Gupta, Eunsol Choi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-20 (更新: 2024-10-30)

备注: Accepted to EMNLP 2024 Findings


💡 一句话要点

探索构建特定语言LLM的设计选择,提升低资源语言性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 特定语言LLM 低资源语言 模型调整 词汇扩展 持续预训练

📋 核心要点

  1. 现有LLM在大多数语言上表现欠佳,尤其是在低资源语言上,这限制了其广泛应用。
  2. 通过调整单语和多语LLM,并探索不同的设计选择,构建特定语言LLM,提升效率和性能。
  3. 实验表明,初始性能不代表最终性能,且最佳调整方法高度依赖于语言本身。

📝 摘要(中文)

尽管大型语言模型(LLMs)取得了快速进展,但它们在绝大多数语言上的表现仍然不尽如人意。本文研究了通过调整单语和多语LLM来构建特定语言LLM的方法。我们系统地实验了设计选择(基础模型选择、词汇扩展和持续预训练)如何影响调整后的LLM,包括效率(编码相同信息所需的token数量)和最终任务性能。我们发现:(1)LLM的初始性能并不总是与调整后的最终性能相关。调整以英语为中心的模型可能比调整多语模型产生更好的结果,尽管后者在低资源语言上的初始性能较差。(2)通过简单的词汇扩展和持续预训练,可以很容易地提高我们研究的大多数LLM的效率。(3)最佳的调整方法(基础模型的选择、新词汇量的大小、训练数据、初始化策略)高度依赖于语言,并且最简单的嵌入初始化在各种实验设置中都表现良好。总而言之,我们的工作为通过调整现有LLM来高效构建特定语言LLM奠定了基础。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在低资源语言上的表现不佳的问题。现有方法要么依赖于多语言模型,但其性能受限于语言之间的干扰;要么从头开始训练特定语言的模型,但成本高昂。因此,如何高效地构建特定语言的LLM,使其在目标语言上具有良好的性能,同时降低训练成本,是本文要解决的核心问题。

核心思路:论文的核心思路是通过调整现有的单语或多语LLM来构建特定语言的LLM。这种方法利用了现有LLM的知识,避免了从头开始训练的巨大成本。通过选择合适的基础模型、扩展词汇表以及进行持续预训练,可以使LLM更好地适应目标语言。

技术框架:该研究的技术框架主要包括三个阶段:1) 基础模型选择:选择合适的单语(如英语)或多语LLM作为起点。2) 词汇扩展:向LLM的词汇表中添加目标语言的词汇,以提高编码效率。3) 持续预训练:使用目标语言的数据对LLM进行持续预训练,使其更好地适应目标语言的语法和语义。

关键创新:该论文的关键创新在于系统地研究了不同设计选择对特定语言LLM性能的影响。它揭示了初始性能与最终性能之间的非线性关系,并发现调整以英语为中心的模型可能比调整多语模型更好。此外,该研究还表明,简单的词汇扩展和持续预训练可以显著提高LLM的效率。

关键设计:论文的关键设计包括:1) 基础模型选择策略:比较了不同规模和类型的LLM作为基础模型的效果。2) 词汇扩展策略:研究了不同词汇量大小对性能的影响。3) 持续预训练策略:探索了不同的训练数据、初始化策略和训练时长。特别地,论文发现最简单的嵌入初始化方法在各种实验设置中表现良好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,调整以英语为中心的模型在低资源语言上的表现优于直接调整多语模型。通过简单的词汇扩展和持续预训练,LLM的效率得到显著提升。例如,在某些语言上,通过调整后的模型,编码相同信息所需的token数量减少了20%以上。此外,实验还发现,最佳的调整方法高度依赖于语言本身,需要根据具体情况进行选择。

🎯 应用场景

该研究成果可广泛应用于机器翻译、跨语言信息检索、多语言对话系统等领域。通过高效构建特定语言的LLM,可以提升低资源语言的自然语言处理能力,促进全球范围内的信息交流和文化传播。未来,该方法有望应用于更多语言,并与其他技术(如知识图谱、强化学习)相结合,进一步提升LLM的性能。

📄 摘要(原文)

Despite rapid progress in large language models (LLMs), their performance on a vast majority of languages remains unsatisfactory. In this paper, we study building language-specific LLMs by adapting monolingual and multilingual LLMs. We conduct systematic experiments on how design choices (base model selection, vocabulary extension, and continued pretraining) impact the adapted LLM, both in terms of efficiency (how many tokens are needed to encode the same amount of information) and end task performance. We find that (1) the initial performance of LLM does not always correlate with the final performance after the adaptation. Adapting an English-centric models can yield better results than adapting multilingual models despite their worse initial performance on low-resource languages. (2) Efficiency can easily improved with simple vocabulary extension and continued pretraining in most LLMs we study, and (3) The optimal adaptation method (choice of the base model, new vocabulary size, training data, initialization strategy) is highly language-dependent, and the simplest embedding initialization works well across various experimental settings. Together, our work lays foundations on efficiently building language-specific LLMs by adapting existing LLMs.