MiniLingua: A Small Open-Source LLM for European Languages

作者: Anna Aksenova, Boris Zverkov, Nicola Dainese, Alexander Nikitin, Pekka Marttinen

分类: cs.CL, cs.AI

发布日期: 2025-12-15

备注: 9+6 pages, 6 figures and 3 tables in the main text. Code at https://github.com/MiniLingua-ai/training_artifacts

💡 一句话要点

MiniLingua：一个面向欧洲语言的小型开源LLM，提升指令遵循能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 小型语言模型 指令遵循 欧洲语言 开源模型

📋 核心要点

现有大型语言模型计算成本高昂，存在隐私问题，并且主要针对英语，限制了其在其他语言环境中的应用。
MiniLingua旨在构建一个小型、高效且多语言的LLM，通过从头开始训练，专注于13种欧洲语言，提升指令遵循能力。
实验结果表明，MiniLingua在多个任务上优于参数量更大的EuroLLM，并在开放式生成任务中与先进模型竞争。

📝 摘要（中文）

大型语言模型（LLM）功能强大，但通常受限于高计算成本、隐私问题以及以英语为中心的训练。最近的研究表明，参数量在10亿左右的小型高效模型可以提供强大的结果，并支持在设备上使用。本文介绍了MiniLingua，一个拥有10亿参数的多语言开源LLM，从头开始为13种欧洲语言进行训练，旨在平衡覆盖范围和指令遵循能力。根据评估结果，MiniLingua的指令调优版本在摘要、分类以及开放和封闭式问答方面优于EuroLLM，后者采用类似训练方法但训练预算更大。此外，在开放式生成任务中，它仍然与更先进的state-of-the-art模型具有竞争力。我们发布了模型权重、分词器以及用于数据处理和模型训练的源代码。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）计算成本高、隐私性差以及对非英语语言支持不足的问题。现有方法通常依赖于大型模型或以英语为中心的数据集，导致在资源受限环境下的部署困难，并且在处理其他语言时性能下降。

核心思路：论文的核心思路是构建一个参数量较小（10亿参数）、专门针对多种欧洲语言进行训练的LLM。通过从头开始训练，而不是依赖于现有模型的微调，可以更好地控制模型的语言特性和指令遵循能力。

技术框架：MiniLingua的训练流程包括数据收集与预处理、模型架构设计、模型训练和指令调优。数据收集阶段收集了13种欧洲语言的文本数据。模型架构基于Transformer，并针对小型模型进行了优化。模型训练采用标准语言建模目标。指令调优阶段使用指令数据集来提升模型的指令遵循能力。

关键创新：MiniLingua的关键创新在于其专注于构建一个小型、多语言且指令遵循能力强的LLM。与现有方法相比，MiniLingua不是简单地微调大型模型，而是从头开始训练，从而更好地控制模型的语言特性。此外，MiniLingua在训练过程中特别关注指令遵循能力，使其能够更好地理解和执行用户指令。

关键设计：MiniLingua使用了10亿参数的Transformer模型。训练数据包括来自13种欧洲语言的文本数据，并进行了清洗和预处理。指令调优阶段使用了专门设计的指令数据集，并采用了监督学习方法。具体的损失函数和优化器选择未知。

🖼️ 关键图片

📊 实验亮点

MiniLingua在摘要、分类以及开放和封闭式问答任务上优于EuroLLM，后者是一个采用类似训练方法但训练预算更大的模型。此外，在开放式生成任务中，MiniLingua与更先进的state-of-the-art模型具有竞争力。这些结果表明，即使是小型模型，通过精心设计和训练，也可以在特定领域取得优异的性能。

🎯 应用场景

MiniLingua的应用场景包括：低资源语言的自然语言处理、设备端智能应用、多语言客户服务、教育领域的语言学习工具等。该研究的实际价值在于提供了一个开源、可定制的多语言LLM，降低了LLM的使用门槛，并促进了多语言自然语言处理技术的发展。未来，MiniLingua可以进一步扩展到更多语言，并应用于更广泛的领域。

📄 摘要（原文）

Large language models are powerful but often limited by high computational cost, privacy concerns, and English-centric training. Recent progress demonstrates that small, efficient models with around one billion parameters can deliver strong results and enable on-device use. This paper introduces MiniLingua, a multilingual open-source LLM of one billion parameters trained from scratch for 13 European languages, designed to balance coverage and instruction-following capabilities. Based on evaluation results, the instruction-tuned version of MiniLingua outperforms EuroLLM, a model with a similar training approach but a larger training budget, on summarization, classification and both open- and closed-book question answering. Moreover, it remains competitive with more advanced state-of-the-art models on open-ended generation tasks. We release model weights, tokenizer and source code used for data processing and model training.

MiniLingua: A Small Open-Source LLM for European Languages

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理