Aya 23: Open Weight Releases to Further Multilingual Progress

📄 arXiv: 2405.15032v2 📥 PDF

作者: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Jon Ander Campos, Yi Chern Tan, Kelly Marchisio, Max Bartolo, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Aidan Gomez, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker

分类: cs.CL

发布日期: 2024-05-23 (更新: 2024-05-31)


💡 一句话要点

Aya 23:发布开源权重以推进多语言建模进展,覆盖23种语言。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 大型语言模型 开源权重 预训练模型 Transformer 自然语言处理 深度学习

📋 核心要点

  1. 现有大规模多语言模型在覆盖语言数量上存在广度,但在特定语言的深度性能上存在不足。
  2. Aya 23通过减少预训练语言种类,增加模型在特定语言上的容量分配,提升模型在这些语言上的性能。
  3. 实验结果表明,Aya 23在23种目标语言上,超越了Aya 101以及Gemma、Mistral和Mixtral等模型。

📝 摘要(中文)

本技术报告介绍了Aya 23,一个多语言语言模型家族。Aya 23建立在最近发布的Aya模型(Üstün et al., 2024)的基础上,专注于将高性能的预训练模型与最近发布的Aya数据集(Singh et al., 2024)相结合。其结果是一个强大的多语言大型语言模型,服务于23种语言,将最先进的语言建模能力扩展到约占世界人口一半的范围。Aya模型覆盖了101种语言,而Aya 23是一项关于深度与广度的实验,旨在探索在预训练期间将更多容量分配给较少语言的影响。Aya 23在它所覆盖的语言上,优于之前的海量多语言模型(如Aya 101),并且在广泛的判别和生成任务上,也优于广泛使用的模型(如Gemma、Mistral和Mixtral)。我们发布了8B和35B模型的开源权重,以此作为我们持续致力于扩大多语言进展的承诺的一部分。

🔬 方法详解

问题定义:现有的大规模多语言模型通常追求覆盖尽可能多的语言,但这种广度可能会牺牲模型在特定语言上的性能。Aya 23旨在解决如何在有限的计算资源下,提升模型在特定数量语言上的建模能力,从而更好地服务于这些语言的用户。现有方法的痛点在于,模型容量在大量语言之间被稀释,导致单语性能不足。

核心思路:Aya 23的核心思路是在预训练阶段,减少模型所覆盖的语言种类,并将更多的模型容量分配给这些选定的语言。通过这种方式,模型可以更深入地学习这些语言的特征,从而提升在这些语言上的性能。这种深度优先的策略与Aya 101的广度优先策略形成对比,旨在探索深度与广度之间的权衡。

技术框架:Aya 23的技术框架基于Transformer架构,并采用了与Aya模型相似的训练流程。主要包括以下阶段:数据收集和预处理、模型预训练、模型评估和微调(如果需要)。该模型家族包含8B和35B两种规模,以适应不同的计算资源需求。

关键创新:Aya 23的关键创新在于其深度优先的多语言建模策略。与以往追求覆盖大量语言的模型不同,Aya 23专注于提升在少量语言上的性能。这种策略的本质区别在于资源分配方式的改变,即将更多的计算资源和模型容量分配给更少的语言。

关键设计:Aya 23的关键设计包括:1) 语言选择:精心挑选了23种语言,这些语言覆盖了广泛的地理区域和人口。2) 数据配比:针对每种语言,合理分配预训练数据量,以平衡不同语言之间的性能。3) 模型规模:提供了8B和35B两种模型规模,以适应不同的计算资源。4) 损失函数:采用标准的语言建模损失函数,并在训练过程中进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Aya 23在23种目标语言上,显著超越了Aya 101等大规模多语言模型,以及Gemma、Mistral和Mixtral等广泛使用的模型。具体的性能数据(如困惑度、BLEU值等)在报告中进行了详细展示。实验结果表明,通过增加模型在特定语言上的容量分配,可以有效提升模型在这些语言上的性能。

🎯 应用场景

Aya 23的潜在应用领域包括多语言机器翻译、跨语言信息检索、多语言文本生成、多语言对话系统等。该研究的实际价值在于提升了在23种目标语言上的语言建模能力,使得这些语言的用户能够更好地利用自然语言处理技术。未来,Aya 23可以作为基础模型,进一步微调和适配到各种具体的应用场景中,促进多语言自然语言处理的发展。

📄 摘要(原文)

This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (Üstün et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.