Creating Arabic LLM Prompts at Scale

📄 arXiv: 2408.05882v1 📥 PDF

作者: Abdelrahman El-Sheikh, Ahmed Elmogtaba, Kareem Darwish, Muhammad Elmallah, Ashraf Elneima, Hassan Sawaf

分类: cs.CL

发布日期: 2024-08-12


💡 一句话要点

提出两种低成本、快速生成大规模阿拉伯语LLM提示的方法,并超越现有模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语LLM 提示生成 机器翻译 数据增强 指令跟随 自然语言处理 低资源语言

📋 核心要点

  1. 现有指令跟随LLM训练依赖大量高质量提示-答案对,但阿拉伯语资源匮乏。
  2. 提出两种方法:翻译现有英文数据集并筛选,以及基于现有阿拉伯语NLP数据集生成提示。
  3. 实验表明,使用该方法生成的提示微调的70亿参数模型超越了700亿参数的Llama3。

📝 摘要(中文)

ChatGPT和BARD的出现普及了使用LLM进行指令跟随文本生成,用户可以使用自然语言请求来询问LLM,并获得符合其请求的自然语言答案。训练LLM以这种方式响应需要大量的用户请求(即提示)及其对应的标准答案示例。在本文中,我们介绍了两种以低成本和快速的方式为阿拉伯语创建此类提示的方法。第一种方法包括自动翻译现有的英语提示数据集,例如PromptSource和Super-NaturalInstructions,然后使用机器翻译质量评估来仅保留高质量的翻译。第二种方法包括在现有的阿拉伯语NLP数据集之上创建自然语言提示。使用这两种方法,我们能够创建超过6740万个阿拉伯语提示,涵盖各种任务,包括摘要、标题生成、语法检查、开放/封闭式问题回答、创意写作等。我们表明,微调一个开放的70亿参数的大型语言模型,即base Qwen2 7B,使其在处理阿拉伯语提示方面优于最先进的700亿参数的指令调整模型,即Llama3 70B。

🔬 方法详解

问题定义:论文旨在解决阿拉伯语大型语言模型(LLM)训练数据不足的问题,特别是缺乏高质量的指令跟随型提示数据。现有方法要么成本高昂(人工标注),要么质量难以保证。缺乏充足的阿拉伯语提示数据限制了LLM在阿拉伯语环境下的性能。

核心思路:论文的核心思路是利用现有的资源,通过机器翻译和数据增强的方式,低成本、快速地生成大规模的阿拉伯语提示数据集。具体来说,一是将现有的高质量英文提示数据集翻译成阿拉伯语,二是基于现有的阿拉伯语NLP数据集构建自然语言提示。

技术框架:整体框架包含两个主要模块:1) 英文提示数据集的自动翻译与质量评估。首先,使用机器翻译系统将PromptSource和Super-NaturalInstructions等英文数据集翻译成阿拉伯语。然后,使用机器翻译质量评估指标(具体指标未知)对翻译结果进行筛选,保留高质量的翻译。2) 基于现有阿拉伯语NLP数据集的提示生成。利用现有的阿拉伯语NLP数据集(具体数据集未知),设计自然语言提示模板,自动生成提示。

关键创新:该方法的主要创新在于其低成本和高效性。通过利用现有的英文资源和阿拉伯语NLP数据集,避免了昂贵的人工标注,并能够快速生成大规模的阿拉伯语提示数据集。此外,使用机器翻译质量评估来保证翻译质量也是一个关键创新点。

关键设计:关于机器翻译质量评估的具体指标、自然语言提示模板的设计、以及微调LLM时使用的具体参数设置、损失函数和网络结构等技术细节,论文摘要中没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用该方法生成的6740万个阿拉伯语提示微调的Qwen2 7B模型,在处理阿拉伯语提示方面,性能超越了最先进的700亿参数的Llama3模型。这表明该方法能够有效地提升阿拉伯语LLM的性能,并且在参数效率方面具有优势。

🎯 应用场景

该研究成果可广泛应用于各种阿拉伯语自然语言处理任务,例如机器翻译、文本摘要、问答系统、对话系统等。通过提升阿拉伯语LLM的性能,可以更好地服务于阿拉伯语用户,促进阿拉伯语信息技术的发展。该方法也为其他低资源语言的LLM训练提供了借鉴。

📄 摘要(原文)

The debut of chatGPT and BARD has popularized instruction following text generation using LLMs, where a user can interrogate an LLM using natural language requests and obtain natural language answers that matches their requests. Training LLMs to respond in this manner requires a large number of worked out examples of user requests (aka prompts) with corresponding gold responses. In this paper, we introduce two methods for creating such prompts for Arabic cheaply and quickly. The first methods entails automatically translating existing prompt datasets from English, such as PromptSource and Super-NaturalInstructions, and then using machine translation quality estimation to retain high quality translations only. The second method involves creating natural language prompts on top of existing Arabic NLP datasets. Using these two methods we were able to create more than 67.4 million Arabic prompts that cover a variety of tasks including summarization, headline generation, grammar checking, open/closed question answering, creative writing, etc. We show that fine tuning an open 7 billion parameter large language model, namely base Qwen2 7B, enables it to outperform a state-of-the-art 70 billion parameter instruction tuned model, namely Llama3 70B, in handling Arabic prompts.