Salamandra Technical Report

📄 arXiv: 2502.08489v2 📥 PDF

作者: Aitor Gonzalez-Agirre, Marc Pàmies, Joan Llop, Irene Baucells, Severino Da Dalt, Daniel Tamayo, José Javier Saiz, Ferran Espuña, Jaume Prats, Javier Aula-Blasco, Mario Mina, Iñigo Pikabea, Adrián Rubio, Alexander Shvets, Anna Sallés, Iñaki Lacunza, Jorge Palomar, Júlia Falcão, Lucía Tormo, Luis Vasquez-Reina, Montserrat Marimon, Oriol Pareras, Valle Ruiz-Fernández, Marta Villegas

分类: cs.CL

发布日期: 2025-02-12 (更新: 2025-02-13)


💡 一句话要点

发布Salamandra:多语种开源解码器大型语言模型,提供2B、7B和40B三种规模。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多语种 开源 解码器模型 自然语言处理

📋 核心要点

  1. 现有大型语言模型在多语种支持和开放性方面存在不足,限制了研究和商业应用。
  2. Salamandra项目旨在通过提供多种规模的开源多语种模型,促进语言模型研究的开放性和可访问性。
  3. 实验结果表明,Salamandra模型在多语种基准测试中表现出色,与同等规模的开源模型相比具有竞争力。

📝 摘要(中文)

本文介绍了Salamandra,一套开源的仅解码器大型语言模型,提供三种不同规模:20亿、70亿和400亿参数。这些模型从零开始,在包含35种欧洲语言和代码的高度多语种数据上进行训练。我们精心策划的语料库完全由来自各种来源的开放获取数据组成。除了基础模型外,还发布了在公共领域指令数据上微调的补充检查点,用于聊天应用。此外,我们还分享了关于多模态的初步实验,作为概念验证,展示了Salamandra系列的潜在应用。我们在多语种基准上的广泛评估表明,Salamandra具有强大的能力,与类似规模的开源模型相比,取得了具有竞争力的性能。我们提供了标准下游任务以及与偏见和安全性相关的关键方面的全面评估结果。通过这份技术报告,我们旨在通过分享我们设计选择、数据管理策略和评估方法背后的所有细节来促进开放科学。此外,我们打破了通常的做法,公开了我们的训练和评估脚本。我们以宽松的Apache 2.0许可证发布所有模型,以促进未来的研究并方便商业用途,从而为大型语言模型的开源生态系统做出贡献。

🔬 方法详解

问题定义:现有的大型语言模型通常在多语种支持方面存在局限性,并且许多模型并非完全开源,限制了研究人员和开发人员的使用。此外,训练数据和训练过程的透明度不足,难以进行深入分析和改进。

核心思路:Salamandra项目的核心思路是构建一套完全开源、高度多语种的大型语言模型,并提供详细的技术报告和训练脚本,以促进开放科学和社区合作。通过精心策划多语种训练数据,并采用标准的解码器架构,旨在实现与现有开源模型相当甚至更优越的性能。

技术框架:Salamandra模型采用标准的仅解码器Transformer架构。训练流程包括数据收集和清洗、模型训练、指令微调和评估。项目发布了三种不同规模的模型(2B、7B和40B),以及相应的指令微调检查点。此外,还进行了初步的多模态实验,探索模型的潜在应用。

关键创新:Salamandra项目的关键创新在于其完全开源的特性,包括模型权重、训练数据、训练脚本和评估脚本。这种透明度极大地促进了研究的可重复性和可扩展性。此外,项目在多语种数据管理方面进行了精心设计,确保模型在多种欧洲语言上具有良好的性能。

关键设计:Salamandra模型的训练数据包含35种欧洲语言和代码,数据来源包括开放获取的文本和代码库。模型采用标准的交叉熵损失函数进行训练。指令微调采用公共领域的指令数据,以提高模型在聊天应用中的性能。评估指标包括标准下游任务的准确率、以及与偏见和安全性相关的指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Salamandra模型在多语种基准测试中取得了具有竞争力的性能,与类似规模的开源模型相比,在某些任务上表现更优。例如,在XGLUE基准测试中,Salamandra模型取得了与现有开源模型相当的平均分数。此外,项目还提供了详细的偏见和安全性评估结果,为模型的负责任使用提供了参考。

🎯 应用场景

Salamandra模型可广泛应用于多语种自然语言处理任务,如机器翻译、文本摘要、问答系统和聊天机器人。其开源特性使其成为学术研究和商业应用的理想选择,可以促进多语种语言技术的创新和发展。此外,该模型还可以作为多模态研究的基础,探索图像、语音等多种模态的融合。

📄 摘要(原文)

This work introduces Salamandra, a suite of open-source decoder-only large language models available in three different sizes: 2, 7, and 40 billion parameters. The models were trained from scratch on highly multilingual data that comprises text in 35 European languages and code. Our carefully curated corpus is made exclusively from open-access data compiled from a wide variety of sources. Along with the base models, supplementary checkpoints that were fine-tuned on public-domain instruction data are also released for chat applications. Additionally, we also share our preliminary experiments on multimodality, which serve as proof-of-concept to showcase potential applications for the Salamandra family. Our extensive evaluations on multilingual benchmarks reveal that Salamandra has strong capabilities, achieving competitive performance when compared to similarly sized open-source models. We provide comprehensive evaluation results both on standard downstream tasks as well as key aspects related to bias and safety.With this technical report, we intend to promote open science by sharing all the details behind our design choices, data curation strategy and evaluation methodology. In addition to that, we deviate from the usual practice by making our training and evaluation scripts publicly accessible. We release all models under a permissive Apache 2.0 license in order to foster future research and facilitate commercial use, thereby contributing to the open-source ecosystem of large language models.