Krikri: Advancing Open Large Language Models for Greek

📄 arXiv: 2505.13772v2 📥 PDF

作者: Dimitris Roussis, Leon Voukoutis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros

分类: cs.CL

发布日期: 2025-05-19 (更新: 2025-05-30)


💡 一句话要点

Krikri:面向希腊语的开源大型语言模型,显著提升希腊语理解与生成能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 希腊语 自然语言处理 指令微调 语言模型评估

📋 核心要点

  1. 现有希腊语和多语种LLM在希腊语理解和生成方面存在不足,难以充分捕捉希腊语的语言特性。
  2. Llama-Krikri-8B通过在高质量希腊语数据上进行大量训练,并结合多阶段后训练流程,提升了模型对希腊语的适应性。
  3. 实验结果表明,Llama-Krikri-8B在自然语言理解、生成和代码生成方面,相较于同类模型有显著提升。

📝 摘要(中文)

本文介绍了Llama-Krikri-8B,一个基于Meta的Llama 3.1-8B构建的、专为希腊语设计的前沿大型语言模型。Llama-Krikri-8B经过大量高质量希腊语数据训练,确保了对希腊语语言细微差别的卓越适应性。该模型拥有80亿参数,在保持高效计算性能的同时,提供了先进的语言能力。Llama-Krikri-8B支持现代希腊语和英语,并且能够处理多音文本和古希腊语。Llama-Krikri-8B的聊天版本采用多阶段后训练流程,利用人工和合成的指令与偏好数据,应用了诸如MAGPIE等技术。此外,为了评估,我们提出了三个新的希腊语公共基准。在现有基准以及我们提出的基准上的评估表明,与同类希腊语和多语种LLM相比,在自然语言理解和生成以及代码生成方面都有显著改进。

🔬 方法详解

问题定义:现有的大型语言模型在处理希腊语时,由于训练数据不足或模型结构不适配,难以充分理解和生成地道的希腊语。这限制了LLM在希腊语环境下的应用,例如自动翻译、文本摘要、对话系统等。现有方法通常依赖于通用多语种模型,但这些模型在特定语言(如希腊语)上的表现往往不尽如人意。

核心思路:本文的核心思路是构建一个专门针对希腊语进行优化的大型语言模型。通过在大量高质量的希腊语数据上进行预训练和后训练,使模型能够更好地捕捉希腊语的语言特性,从而提升其在希腊语理解和生成任务上的性能。此外,还利用人工和合成数据进行指令微调,进一步提升模型的对话能力。

技术框架:Llama-Krikri-8B的整体框架基于Meta的Llama 3.1-8B模型。主要包含以下几个阶段:1) 预训练:在大量高质量的希腊语语料库上进行预训练,使模型学习希腊语的语言知识。2) 后训练:采用多阶段后训练流程,包括指令微调和偏好学习,利用人工和合成数据提升模型的对话能力。3) 评估:在现有基准和新提出的希腊语基准上进行评估,验证模型的性能。

关键创新:该论文的关键创新在于构建了一个专门针对希腊语进行优化的大型语言模型,并提出了三个新的希腊语评估基准。与现有方法相比,Llama-Krikri-8B更加注重希腊语的语言特性,并通过高质量的希腊语数据进行训练,从而在希腊语理解和生成方面取得了显著的提升。此外,多阶段后训练流程也进一步提升了模型的对话能力。

关键设计:Llama-Krikri-8B的关键设计包括:1) 高质量希腊语数据集的构建,确保模型能够学习到丰富的希腊语知识。2) 多阶段后训练流程,利用人工和合成数据进行指令微调和偏好学习,提升模型的对话能力。3) 采用MAGPIE等技术进行偏好学习,使模型能够更好地理解人类的偏好。4) 提出了三个新的希腊语评估基准,为希腊语LLM的评估提供了新的工具。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,Llama-Krikri-8B在自然语言理解、生成和代码生成方面均优于同类希腊语和多语种LLM。具体而言,在提出的新基准测试中,Llama-Krikri-8B取得了显著的性能提升,表明其在希腊语处理方面具有强大的能力。这些结果验证了该模型在希腊语领域的有效性和优越性。

🎯 应用场景

Llama-Krikri-8B在希腊语自然语言处理领域具有广泛的应用前景,例如机器翻译、文本摘要、问答系统、对话生成等。它可以用于构建智能客服、教育辅助工具、内容创作平台等,为希腊语用户提供更智能、更便捷的服务。此外,该模型还可以促进希腊语数字内容的发展,推动希腊语文化在全球范围内的传播。

📄 摘要(原文)

We introduce Llama-Krikri-8B, a cutting-edge Large Language Model tailored for the Greek language, built on Meta's Llama 3.1-8B. Llama-Krikri-8B has been extensively trained on high-quality Greek data to ensure superior adaptation to linguistic nuances. With 8 billion parameters, it offers advanced capabilities while maintaining efficient computational performance. Llama-Krikri-8B supports both Modern Greek and English, and is also equipped to handle polytonic text and Ancient Greek. The chat version of Llama-Krikri-8B features a multi-stage post-training pipeline, utilizing both human and synthetic instruction and preference data, by applying techniques such as MAGPIE. In addition, for evaluation, we propose three novel public benchmarks for Greek. Our evaluation on existing as well as the proposed benchmarks shows notable improvements over comparable Greek and multilingual LLMs in both natural language understanding and generation as well as code generation.