Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
作者: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
分类: cs.CL, cs.AI
发布日期: 2025-09-06
备注: Michael Hoffmann and Jophin John contributed equally to this work
💡 一句话要点
Llama-GENBA-10B:面向德语、英语和巴伐利亚语的三语大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 低资源语言 跨语言迁移 预训练 巴伐利亚语
📋 核心要点
- 现有大型语言模型存在以英语为中心的偏差,忽略了其他语言,尤其对低资源语言支持不足。
- Llama-GENBA-10B通过平衡英语、德语和巴伐利亚语的预训练数据,并优化模型架构,实现更好的跨语言性能。
- 实验结果表明,Llama-GENBA-10B在巴伐利亚语上超越现有模型,并在英语和德语上达到或超过现有水平。
📝 摘要(中文)
本文介绍了Llama-GENBA-10B,一个旨在解决大型语言模型中以英语为中心的偏差的三语基础模型。该模型基于Llama 3.1-8B构建,扩展到100亿参数,并在1640亿tokens上进行持续预训练(820亿英语,820亿德语,以及8000万巴伐利亚语),平衡资源的同时防止英语主导地位。该模型面向德国自然语言处理社区,同时也推广巴伐利亚语这种低资源语言。开发过程解决了四个挑战:(1) 在巴伐利亚语稀缺的情况下,管理一个多语语料库;(2) 为英语、德语和巴伐利亚语创建一个统一的分词器;(3) 优化架构和语言比例超参数以实现跨语言迁移;(4) 通过将德国基准翻译成巴伐利亚语,建立第一个标准化的三语评估套件。评估表明,Llama-GENBA-10B实现了强大的跨语言性能,微调后的变体在巴伐利亚语方面超越了Apertus-8B-2509和gemma-2-9b,成为该语言同类最佳模型,同时在英语方面优于EuroLLM,并在德语方面与其结果相匹配。在Cerebras CS-2上进行的训练展示了高效的大规模多语预训练,并记录了能源使用情况,为整合低资源语言的包容性基础模型提供了一个蓝图。
🔬 方法详解
问题定义:现有的大型语言模型通常以英语为中心进行训练,导致在其他语言,特别是低资源语言上的表现不佳。这限制了这些模型在多语言环境中的应用,并且可能加剧语言之间的数字鸿沟。现有的多语言模型往往无法在资源分配上做到平衡,导致低资源语言的性能提升有限。
核心思路:Llama-GENBA-10B的核心思路是通过平衡不同语言的预训练数据,特别是增加低资源语言(巴伐利亚语)的比例,来缓解英语中心偏差。同时,通过优化模型架构和语言比例超参数,提高模型在不同语言之间的跨语言迁移能力。这种方法旨在创建一个更公平、更高效的多语言模型。
技术框架:Llama-GENBA-10B基于Llama 3.1-8B构建,并扩展到100亿参数。整个训练流程包括以下几个主要阶段:1) 数据收集与清洗:收集英语、德语和巴伐利亚语的文本数据,并进行清洗和预处理。2) 分词器构建:创建一个统一的分词器,能够有效地处理三种语言的文本。3) 模型预训练:在1640亿tokens上进行持续预训练,平衡三种语言的数据比例。4) 模型评估:使用标准化的三语评估套件评估模型的性能。
关键创新:该论文的关键创新在于:1) 提出了一个平衡多语言预训练数据比例的方法,有效地缓解了英语中心偏差。2) 构建了第一个标准化的三语评估套件,为多语言模型的评估提供了一个新的基准。3) 针对低资源语言,探索了优化模型架构和语言比例超参数的方法,提高了跨语言迁移能力。
关键设计:在数据方面,作者精心策划了一个包含英语、德语和巴伐利亚语的语料库,特别关注巴伐利亚语的稀缺性问题。在模型训练方面,作者使用了Cerebras CS-2,并详细记录了能源消耗。在评估方面,作者将德国基准测试翻译成巴伐利亚语,创建了一个标准化的三语评估套件。此外,作者还优化了语言比例超参数,以实现更好的跨语言迁移。
🖼️ 关键图片
📊 实验亮点
Llama-GENBA-10B在巴伐利亚语上的表现显著优于Apertus-8B-2509和gemma-2-9b,成为该语言同类最佳模型。在英语方面,该模型优于EuroLLM,并在德语方面与其结果相匹配。这些结果表明,通过平衡多语言预训练数据和优化模型架构,可以有效地提高多语言模型的性能。
🎯 应用场景
Llama-GENBA-10B可应用于多语言机器翻译、跨语言信息检索、多语言内容生成等领域。尤其对于德语和巴伐利亚语社区,该模型能够提供更准确、更自然的语言处理服务。该研究为构建更具包容性的多语言基础模型提供了借鉴,有助于推动低资源语言的数字化发展。
📄 摘要(原文)
We present Llama-GENBA-10B, a trilingual foundation model addressing English-centric bias in large language models. Built on Llama 3.1-8B and scaled to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens (82B English, 82B German, and 80M Bavarian), balancing resources while preventing English dominance. Targeted at the German NLP community, the model also promotes Bavarian as a low-resource language. Development tackled four challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2) creating a unified tokenizer for English, German, and Bavarian, (3) optimizing architecture and language-ratio hyperparameters for cross-lingual transfer, and (4) establishing the first standardized trilingual evaluation suite by translating German benchmarks into Bavarian. Evaluations show that Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing itself as the best model in its class for this language, while also outperforming EuroLLM in English and matching its results in German. Training on the Cerebras CS-2 demonstrated efficient large-scale multilingual pretraining with documented energy use, offering a blueprint for inclusive foundation models that integrate low-resource languages.