MiniLingua: A Small Open-Source LLM for European Languages

📄 arXiv: 2512.13298v1 📥 PDF

作者: Anna Aksenova, Boris Zverkov, Nicola Dainese, Alexander Nikitin, Pekka Marttinen

分类: cs.CL, cs.AI

发布日期: 2025-12-15

备注: 9+6 pages, 6 figures and 3 tables in the main text. Code at https://github.com/MiniLingua-ai/training_artifacts


💡 一句话要点

MiniLingua:一个面向欧洲语言的小型开源LLM,提升指令遵循能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 小型语言模型 指令遵循 欧洲语言 开源模型

📋 核心要点

  1. 现有大型语言模型计算成本高昂,存在隐私问题,并且主要针对英语,限制了其在其他语言环境中的应用。
  2. MiniLingua旨在构建一个小型、高效且多语言的LLM,通过从头开始训练,专注于13种欧洲语言,提升指令遵循能力。
  3. 实验结果表明,MiniLingua在多个任务上优于参数量更大的EuroLLM,并在开放式生成任务中与先进模型竞争。

📝 摘要(中文)

大型语言模型(LLM)功能强大,但通常受限于高计算成本、隐私问题以及以英语为中心的训练。最近的研究表明,参数量在10亿左右的小型高效模型可以提供强大的结果,并支持在设备上使用。本文介绍了MiniLingua,一个拥有10亿参数的多语言开源LLM,从头开始为13种欧洲语言进行训练,旨在平衡覆盖范围和指令遵循能力。根据评估结果,MiniLingua的指令调优版本在摘要、分类以及开放和封闭式问答方面优于EuroLLM,后者采用类似训练方法但训练预算更大。此外,在开放式生成任务中,它仍然与更先进的state-of-the-art模型具有竞争力。我们发布了模型权重、分词器以及用于数据处理和模型训练的源代码。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)计算成本高、隐私性差以及对非英语语言支持不足的问题。现有方法通常依赖于大型模型或以英语为中心的数据集,导致在资源受限环境下的部署困难,并且在处理其他语言时性能下降。

核心思路:论文的核心思路是构建一个参数量较小(10亿参数)、专门针对多种欧洲语言进行训练的LLM。通过从头开始训练,而不是依赖于现有模型的微调,可以更好地控制模型的语言特性和指令遵循能力。

技术框架:MiniLingua的训练流程包括数据收集与预处理、模型架构设计、模型训练和指令调优。数据收集阶段收集了13种欧洲语言的文本数据。模型架构基于Transformer,并针对小型模型进行了优化。模型训练采用标准语言建模目标。指令调优阶段使用指令数据集来提升模型的指令遵循能力。

关键创新:MiniLingua的关键创新在于其专注于构建一个小型、多语言且指令遵循能力强的LLM。与现有方法相比,MiniLingua不是简单地微调大型模型,而是从头开始训练,从而更好地控制模型的语言特性。此外,MiniLingua在训练过程中特别关注指令遵循能力,使其能够更好地理解和执行用户指令。

关键设计:MiniLingua使用了10亿参数的Transformer模型。训练数据包括来自13种欧洲语言的文本数据,并进行了清洗和预处理。指令调优阶段使用了专门设计的指令数据集,并采用了监督学习方法。具体的损失函数和优化器选择未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MiniLingua在摘要、分类以及开放和封闭式问答任务上优于EuroLLM,后者是一个采用类似训练方法但训练预算更大的模型。此外,在开放式生成任务中,MiniLingua与更先进的state-of-the-art模型具有竞争力。这些结果表明,即使是小型模型,通过精心设计和训练,也可以在特定领域取得优异的性能。

🎯 应用场景

MiniLingua的应用场景包括:低资源语言的自然语言处理、设备端智能应用、多语言客户服务、教育领域的语言学习工具等。该研究的实际价值在于提供了一个开源、可定制的多语言LLM,降低了LLM的使用门槛,并促进了多语言自然语言处理技术的发展。未来,MiniLingua可以进一步扩展到更多语言,并应用于更广泛的领域。

📄 摘要(原文)

Large language models are powerful but often limited by high computational cost, privacy concerns, and English-centric training. Recent progress demonstrates that small, efficient models with around one billion parameters can deliver strong results and enable on-device use. This paper introduces MiniLingua, a multilingual open-source LLM of one billion parameters trained from scratch for 13 European languages, designed to balance coverage and instruction-following capabilities. Based on evaluation results, the instruction-tuned version of MiniLingua outperforms EuroLLM, a model with a similar training approach but a larger training budget, on summarization, classification and both open- and closed-book question answering. Moreover, it remains competitive with more advanced state-of-the-art models on open-ended generation tasks. We release model weights, tokenizer and source code used for data processing and model training.