Arabic Automatic Story Generation with Large Language Models

📄 arXiv: 2407.07551v1 📥 PDF

作者: Ahmed Oumar El-Shangiti, Fakhraddin Alwajih, Muhammad Abdul-Mageed

分类: cs.CL, cs.AI

发布日期: 2024-07-10


💡 一句话要点

利用大型语言模型进行阿拉伯语自动故事生成,并构建高质量训练数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语 故事生成 大型语言模型 机器翻译 GPT-4 数据增强 自然语言处理

📋 核心要点

  1. 现有阿拉伯语故事生成方法效果不佳,缺乏高质量的阿拉伯语训练数据是主要瓶颈。
  2. 利用机器翻译和GPT-4生成高质量的阿拉伯语故事数据集,涵盖多种阿拉伯语方言和主题。
  3. 实验结果表明,微调后的模型能够生成连贯且符合指令的阿拉伯语故事,性能优于现有模型。

📝 摘要(中文)

大型语言模型(LLMs)最近已成为各种语言生成任务的强大工具。然而,阿拉伯语在这方面的进展相对缓慢。本文着重研究利用LLMs生成故事的任务。训练数据来源于机器翻译(MT)和GPT-4生成的数据。对于MT数据,我们开发了一个精细的流程,以确保获得高质量的故事。对于GPT-4数据,我们设计了巧妙的提示,以便生成适合阿拉伯语环境的数据,包括现代标准阿拉伯语(MSA)和两种阿拉伯语方言(埃及和摩洛哥)。例如,我们生成了针对不同阿拉伯国家、涵盖广泛主题的故事。人工评估表明,在这些训练数据集上微调的模型能够生成连贯且符合指令的故事。我们还进行了广泛的自动和人工评估,将我们的模型与最先进的专有和开源模型进行了比较。我们的数据集和模型将在https://github.com/UBC-NLP/arastories上公开。

🔬 方法详解

问题定义:本文旨在解决阿拉伯语自动故事生成的问题。现有方法在阿拉伯语上的表现不佳,主要原因是缺乏高质量的阿拉伯语故事数据集,特别是涵盖不同方言和文化背景的数据。这限制了大型语言模型在阿拉伯语故事生成方面的应用。

核心思路:本文的核心思路是通过结合机器翻译和GPT-4生成,构建一个高质量、多样化的阿拉伯语故事数据集。通过精细的流程和巧妙的提示,确保生成的故事在语言质量、文化相关性和主题覆盖范围上都达到较高水平。然后,利用该数据集对大型语言模型进行微调,使其能够生成连贯、符合指令的阿拉伯语故事。

技术框架:整体框架包含以下几个主要阶段: 1. 数据收集:利用机器翻译将现有故事翻译成阿拉伯语,并设计提示词让GPT-4生成阿拉伯语故事。 2. 数据清洗:对机器翻译的数据进行质量评估和过滤,确保数据质量。 3. 数据增强:利用GPT-4生成不同方言和主题的故事,增加数据的多样性。 4. 模型训练:使用生成的数据集对大型语言模型进行微调。 5. 模型评估:通过自动指标和人工评估,评估模型的生成质量。

关键创新:本文的关键创新在于构建高质量阿拉伯语故事数据集的方法。通过结合机器翻译和GPT-4生成,并采用精细的流程和提示词设计,克服了阿拉伯语数据稀缺的问题。此外,本文还考虑了不同阿拉伯语方言和文化背景,使得生成的故事更具相关性和实用性。

关键设计:在数据生成方面,针对GPT-4设计了特定的提示词,以控制生成故事的主题、风格和方言。在模型训练方面,采用了常用的微调方法,并根据阿拉伯语的特点进行了一些调整。具体的技术细节(如损失函数、网络结构等)未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过人工评估证明,在自建数据集上微调的模型能够生成连贯且符合指令的阿拉伯语故事,并且在自动和人工评估中,该模型与最先进的专有和开源模型相比具有竞争力。具体性能数据和提升幅度未在摘要中明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于多个领域,如阿拉伯语教育、娱乐内容生成、文化交流等。高质量的阿拉伯语故事生成模型可以为阿拉伯语学习者提供丰富的阅读材料,也可以用于创作各种阿拉伯语故事内容,促进阿拉伯文化的传播。此外,该技术还可以应用于智能客服、聊天机器人等领域,提升阿拉伯语用户的交互体验。

📄 摘要(原文)

Large language models (LLMs) have recently emerged as a powerful tool for a wide range of language generation tasks. Nevertheless, this progress has been slower in Arabic. In this work, we focus on the task of generating stories from LLMs. For our training, we use stories acquired through machine translation (MT) as well as GPT-4. For the MT data, we develop a careful pipeline that ensures we acquire high-quality stories. For our GPT-41 data, we introduce crafted prompts that allow us to generate data well-suited to the Arabic context in both Modern Standard Arabic (MSA) and two Arabic dialects (Egyptian and Moroccan). For example, we generate stories tailored to various Arab countries on a wide host of topics. Our manual evaluation shows that our model fine-tuned on these training datasets can generate coherent stories that adhere to our instructions. We also conduct an extensive automatic and human evaluation comparing our models against state-of-the-art proprietary and open-source models. Our datasets and models will be made publicly available at https: //github.com/UBC-NLP/arastories.