MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions
作者: Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-09-19
🔗 代码/项目: GITHUB
💡 一句话要点
MURI:通过逆向指令为低资源语言生成高质量指令微调数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令微调 低资源语言 逆向指令 数据生成 自然语言处理
📋 核心要点
- 传统指令微调数据集构建依赖人工标注,这对于低资源语言而言成本高昂且难以实现。
- MURI方法利用逆向指令和翻译流程,从现有的低资源语言文本中自动生成指令-输出对,无需人工标注。
- 实验表明,使用MURI-IT数据集微调的mT5模型在NLU和开放式生成任务上表现出良好的性能。
📝 摘要(中文)
指令微调通过使大型语言模型(LLMs)与各种任务中的人类偏好对齐来增强它们。由于依赖于数据标注,传统方法在为低资源语言创建指令微调数据集时面临严峻挑战。本研究提出了一种新颖的方法,即多语言逆向指令(MURI),该方法无需人工标注员或预先存在的多语言模型,即可为低资源语言生成高质量的指令微调数据集。MURI利用逆向指令和翻译流程,从低资源语言中现有人工编写的文本生成指令-输出对。该方法通过从不同的本地领域获取文本并应用过滤器来消除不适当的内容,从而确保文化相关性和多样性。我们的数据集MURI-IT包含超过200种语言的200多万个指令-输出对。母语人士的评估以及使用mT5模型进行的微调实验证明了该方法在NLU和开放式生成方面的有效性。我们在https://github.com/akoksal/muri 公开发布数据集和模型。
🔬 方法详解
问题定义:论文旨在解决低资源语言缺乏高质量指令微调数据集的问题。现有方法依赖人工标注或预训练的多语言模型,成本高昂且数据量有限,难以满足指令微调的需求。
核心思路:论文的核心思路是利用逆向指令生成技术,从现有的低资源语言文本中自动构建指令-输出对。通过将文本作为输出,并生成相应的指令作为输入,避免了人工标注的成本,并能充分利用现有的低资源语言文本资源。
技术框架:MURI方法包含以下几个主要阶段:1) 从各种来源收集低资源语言的文本数据;2) 使用逆向指令生成模型,为每个文本生成对应的指令;3) 使用翻译流程将指令翻译成多种语言(可选);4) 应用过滤器去除不适当的内容;5) 构建最终的指令微调数据集。
关键创新:MURI的关键创新在于使用逆向指令生成技术,避免了对人工标注的依赖,从而能够以较低的成本为低资源语言构建大规模的指令微调数据集。此外,该方法还考虑了文化相关性和多样性,从不同的本地领域获取文本,并应用过滤器去除不适当的内容。
关键设计:逆向指令生成模型的具体实现细节未知,论文中可能使用了预训练的语言模型进行微调,以生成高质量的指令。过滤器的设计也至关重要,需要根据具体的语言和文化背景进行调整,以确保数据集的质量和安全性。翻译流程可能使用了机器翻译模型,需要选择合适的模型以保证翻译的准确性。
🖼️ 关键图片
📊 实验亮点
MURI-IT数据集包含200多种语言的200多万个指令-输出对,规模庞大。母语人士的评估表明,MURI生成的指令质量较高。使用MURI-IT数据集微调的mT5模型在NLU和开放式生成任务上表现出良好的性能,证明了该方法的有效性。具体的性能提升数据未知。
🎯 应用场景
该研究成果可广泛应用于低资源语言的自然语言处理任务,例如机器翻译、文本摘要、问答系统等。通过使用MURI-IT数据集进行指令微调,可以提升模型在这些任务上的性能,并促进低资源语言的数字化发展。此外,该方法还可以应用于其他数据稀缺的领域,例如特定领域的文本生成和对话系统。
📄 摘要(原文)
Instruction tuning enhances large language models (LLMs) by aligning them with human preferences across diverse tasks. Traditional approaches to create instruction tuning datasets face serious challenges for low-resource languages due to their dependence on data annotation. This work introduces a novel method, Multilingual Reverse Instructions (MURI), which generates high-quality instruction tuning datasets for low-resource languages without requiring human annotators or pre-existing multilingual models. Utilizing reverse instructions and a translation pipeline, MURI produces instruction-output pairs from existing human-written texts in low-resource languages. This method ensures cultural relevance and diversity by sourcing texts from different native domains and applying filters to eliminate inappropriate content. Our dataset, MURI-IT, includes more than 2 million instruction-output pairs across 200 languages. Evaluation by native speakers and fine-tuning experiments with mT5 models demonstrate the approach's effectiveness for both NLU and open-ended generation. We publicly release datasets and models at https://github.com/akoksal/muri.