Amadeus-Verbo Technical Report: The powerful Qwen2.5 family models trained in Portuguese
作者: William Alberto Cruz-Castañeda, Marcellus Amadeus
分类: cs.CL, cs.AI
发布日期: 2025-05-20
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
Amadeus-Verbo:针对巴西葡萄牙语的Qwen2.5系列大语言模型微调与开源
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 巴西葡萄牙语 微调 开源 Qwen2.5 自然语言处理 模型训练
📋 核心要点
- 现有针对巴西葡萄牙语的大语言模型资源相对匮乏,限制了该语言在AI领域的应用。
- Amadeus Verbo通过微调开源的Qwen2.5模型,构建了一系列不同规模的巴西葡萄牙语LLM。
- 该研究旨在展示利用现有数据和资源,快速构建特定语言LLM的可行性,并促进开源社区发展。
📝 摘要(中文)
本报告介绍了Amadeus Verbo的开发经验,Amadeus Verbo是一个用于巴西葡萄牙语的大型语言模型系列。为了处理各种用例,Amadeus Verbo包括基础调优、合并和指令调优的模型,参数规模分别为0.5B、1.5B、3B、7B、14B、32B和72B。因此,主要目标是展示在数据和资源可用时,微调基础模型以实现巴西葡萄牙语LLM的开源开发是多么容易。Amadeus-Verbo系列模型均可在HuggingFace上找到:https://huggingface.co/collections/amadeusai/amadeus-verbo-qwen25-67cf2e7aae69ce2b3bcdcfda。
🔬 方法详解
问题定义:当前针对巴西葡萄牙语的大语言模型发展相对滞后,缺乏足够数量和多样性的模型来满足不同应用场景的需求。现有方法可能依赖于通用模型进行迁移学习,但效果往往不如专门针对该语言进行训练的模型。
核心思路:该研究的核心思路是利用开源的Qwen2.5系列模型作为基础,通过微调的方式,使其适应巴西葡萄牙语的特性。这种方法能够有效利用现有的大规模预训练模型的能力,并针对特定语言进行优化。
技术框架:Amadeus Verbo项目构建了一系列模型,包括基础调优模型、合并模型和指令调优模型。这些模型基于Qwen2.5,并针对巴西葡萄牙语数据集进行了微调。模型的规模涵盖了从0.5B到72B的不同参数量级,以满足不同计算资源和应用场景的需求。所有模型均在Hugging Face上开源发布。
关键创新:该研究的关键创新在于展示了利用开源基础模型和相对容易获取的特定语言数据,快速构建高性能特定语言LLM的可行性。通过提供不同规模的模型,该项目旨在促进巴西葡萄牙语LLM的开源发展和应用。
关键设计:具体的微调策略、数据集选择、超参数设置等技术细节在报告中没有详细说明,属于未知信息。但可以推测,研究团队可能采用了常见的微调方法,例如LoRA或QLoRA,并针对巴西葡萄牙语的特点进行了优化。损失函数可能采用了交叉熵损失,网络结构则继承了Qwen2.5的结构。
📊 实验亮点
该研究成功地基于Qwen2.5构建了一系列针对巴西葡萄牙语的大语言模型,参数规模从0.5B到72B不等。这些模型在Hugging Face上开源发布,为研究人员和开发者提供了宝贵的资源。虽然报告中没有提供具体的性能数据,但该项目展示了利用开源资源快速构建特定语言LLM的可行性。
🎯 应用场景
Amadeus Verbo系列模型可广泛应用于巴西葡萄牙语相关的自然语言处理任务,例如文本生成、机器翻译、情感分析、问答系统等。这些模型能够为巴西葡萄牙语用户提供更自然、更准确的AI服务,并促进该语言在AI领域的应用和发展。该项目也为其他低资源语言的LLM开发提供了借鉴。
📄 摘要(原文)
This report introduces the experience of developing Amadeus Verbo, a family of large language models for Brazilian Portuguese. To handle diverse use cases, Amadeus Verbo includes base-tuned, merged, and instruction-tuned models in sizes of 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B parameters. Thus, the main objective is to show how easy it is to fine-tune foundation models to democratize the open-source development of Brazilian Portuguese LLMs when data and resources are available. Amadeus-Verbo family models are all available at HuggingFace at https://huggingface.co/collections/amadeusai/amadeus-verbo-qwen25-67cf2e7aae69ce2b3bcdcfda.