Meltemi: The first open Large Language Model for Greek

📄 arXiv: 2407.20743v1 📥 PDF

作者: Leon Voukoutis, Dimitris Roussis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros

分类: cs.CL

发布日期: 2024-07-30

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Meltemi:首个开源希腊语大型语言模型,参数量达70亿。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 希腊语 自然语言处理 持续预训练 指令微调

📋 核心要点

  1. 现有希腊语大型语言模型资源匮乏,阻碍了希腊语自然语言处理的发展。
  2. Meltemi 7B通过在Mistral模型基础上,利用大规模希腊语语料库进行持续预训练,构建希腊语LLM。
  3. 论文构建了评估语料库,并对模型进行了评估,同时开源了Meltemi 7B及其指令微调版本。

📝 摘要(中文)

本文介绍了Meltemi 7B的开发和能力,它是首个开源的希腊语大型语言模型。Meltemi 7B拥有70亿参数,并在一个包含400亿token的希腊语语料库上进行训练。Meltemi 7B的开发基于Mistral模型,通过在希腊语语料库上进行持续预训练实现。Meltemi 7B包含截至2023年9月的最新信息。此外,我们翻译并整理了一个希腊语指令语料库,用于指令微调一个名为Meltemi 7B Instruct的聊天模型。Meltemi 7B Instruct特别关注对齐和去除有害内容。开发的模型在一系列收集的评估语料库上进行评估,并展示了提示和响应的示例。Meltemi 7B和Meltemi 7B Instruct均可在https://huggingface.co/ilsp上以Apache 2.0许可证获取。

🔬 方法详解

问题定义:当前缺乏专门为希腊语设计和优化的开源大型语言模型。这限制了希腊语自然语言处理任务的发展,并且阻碍了研究人员和开发者在该领域进行创新和探索。现有的通用语言模型可能无法充分理解和生成高质量的希腊语文本,尤其是在处理特定领域的知识和文化背景时。

核心思路:论文的核心思路是基于一个已有的、表现良好的通用语言模型(Mistral),通过在一个大规模的希腊语语料库上进行持续预训练,使其适应希腊语的语言特性和知识。此外,通过指令微调,使模型能够更好地理解和执行用户指令,从而构建一个实用的希腊语聊天模型。

技术框架:Meltemi 7B的整体框架包括以下几个主要阶段:1) 选择Mistral模型作为基础模型;2) 构建一个包含400亿token的大规模希腊语语料库;3) 在希腊语语料库上对Mistral模型进行持续预训练,得到Meltemi 7B;4) 翻译和整理一个希腊语指令语料库;5) 使用指令语料库对Meltemi 7B进行指令微调,得到Meltemi 7B Instruct;6) 在一系列评估语料库上对模型进行评估。

关键创新:该论文的主要创新在于:1) 首次构建并开源了一个专门为希腊语设计的大型语言模型(Meltemi 7B);2) 构建了一个大规模的希腊语语料库,为希腊语自然语言处理研究提供了宝贵的资源;3) 通过指令微调,构建了一个能够进行希腊语对话的聊天模型(Meltemi 7B Instruct),并特别关注了模型的对齐和去除有害内容。

关键设计:Meltemi 7B的关键设计包括:1) 基于Mistral模型,利用其优秀的性能和效率;2) 使用大规模的希腊语语料库进行训练,确保模型能够充分学习希腊语的语言特性;3) 通过指令微调,使模型能够更好地理解和执行用户指令;4) 特别关注模型的对齐和去除有害内容,确保模型的安全性和可靠性。具体的参数设置、损失函数、网络结构等细节可能与Mistral模型保持一致,或者根据希腊语语料库的特性进行调整(具体细节未知)。

📊 实验亮点

论文构建了包含400亿token的希腊语语料库,并基于此训练了70亿参数的Meltemi 7B模型。通过指令微调,得到了Meltemi 7B Instruct,该模型在希腊语对话任务上表现出色。论文开源了这两个模型,为希腊语自然语言处理研究提供了重要资源。具体的性能数据和对比基线在论文中进行了详细展示(具体数值未知)。

🎯 应用场景

Meltemi 7B及其指令微调版本可广泛应用于希腊语自然语言处理任务,如机器翻译、文本摘要、问答系统、聊天机器人等。它能够促进希腊语数字内容的发展,并为希腊语用户提供更智能、更便捷的服务。该模型还有助于保护和传承希腊语文化,并促进希腊语在数字时代的传播和发展。

📄 摘要(原文)

We describe the development and capabilities of Meltemi 7B, the first open Large Language Model for the Greek language. Meltemi 7B has 7 billion parameters and is trained on a 40 billion token Greek corpus. For the development of Meltemi 7B, we adapt Mistral, by continuous pretraining on the Greek Corpus. Meltemi 7B contains up-to-date information up to September 2023. Furthermore, we have translated and curated a Greek instruction corpus, which has been used for the instruction-tuning of a chat model, named Meltemi 7B Instruct. Special care has been given to the alignment and the removal of toxic content for the Meltemi 7B Instruct. The developed models are evaluated on a broad set of collected evaluation corpora, and examples of prompts and responses are presented. Both Meltemi 7B and Meltemi 7B Instruct are available at https://huggingface.co/ilsp under the Apache 2.0 license.