Instruction-Guided Poetry Generation in Arabic and Its Dialects

📄 arXiv: 2604.27766v1 📥 PDF

作者: Abdelrahman Sadallah, Kareem Elozeiri, Mervat Abassy, Rania Elbadry, Mohamed Anwar, Abed Alhakim Freihat, Preslav Nakov, Fajri Koto

分类: cs.CL, cs.AI

发布日期: 2026-04-30

备注: ACL Findings 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出InstructPoet-AR,实现阿拉伯语及其方言中指令引导的可控诗歌生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 诗歌生成 阿拉伯语 指令学习 大型语言模型 数据集构建

📋 核心要点

  1. 现有研究主要集中于阿拉伯语诗歌的分析,缺乏对阿拉伯语诗歌生成任务的有效支持,无法满足用户创作需求。
  2. 构建大规模指令数据集,涵盖现代标准阿拉伯语和多种方言,支持诗歌创作、修改、续写和分析等任务。
  3. 通过在构建的数据集上微调大型语言模型,实验证明模型能够根据用户指令生成高质量的阿拉伯语诗歌。

📝 摘要(中文)

诗歌长期以来一直是阿拉伯语使用者重要的艺术形式,是表达和文化认同的强大媒介。虽然现代阿拉伯语使用者仍然重视诗歌,但现有大型语言模型(LLM)中关于阿拉伯语诗歌的研究主要集中在分析任务上,例如解释或元数据预测(如韵律和标题)。相比之下,我们的工作通过引入可控生成能力来帮助用户创作诗歌,从而解决了阿拉伯语诗歌创作的实际问题。具体来说,我们提出了一个大规模、精心策划的、基于指令的数据集,涵盖现代标准阿拉伯语(MSA)和各种阿拉伯语方言。该数据集支持诸如基于预定义标准(包括风格和韵律)编写、修改和续写诗歌,以及执行诗歌分析等任务。实验表明,在此数据集上微调LLM可以产生能够有效生成符合用户要求的诗歌的模型,这基于自动化指标和以阿拉伯语为母语的人的评估。

🔬 方法详解

问题定义:现有的大型语言模型在阿拉伯语诗歌领域的研究主要集中在分析任务,例如韵律分析和主题识别,缺乏对诗歌生成任务的有效支持。用户难以利用现有模型创作符合特定风格、韵律和主题的阿拉伯语诗歌,阻碍了阿拉伯语诗歌的传承和发展。

核心思路:论文的核心思路是构建一个大规模的、基于指令的数据集,并利用该数据集对大型语言模型进行微调,从而赋予模型可控的阿拉伯语诗歌生成能力。通过指令引导,用户可以指定诗歌的风格、韵律、主题等属性,模型则根据指令生成相应的诗歌。

技术框架:该研究的技术框架主要包含两个部分:一是数据集构建,二是模型微调。数据集构建方面,作者收集了大量的阿拉伯语诗歌数据,并人工标注了指令,包括诗歌的风格、韵律、主题等信息。模型微调方面,作者选择了预训练的大型语言模型,并使用构建的数据集对其进行微调,使其能够理解和执行指令,生成符合要求的诗歌。

关键创新:该论文的关键创新在于构建了一个大规模的、基于指令的阿拉伯语诗歌数据集。该数据集涵盖了现代标准阿拉伯语和多种阿拉伯语方言,包含了丰富的诗歌风格和韵律信息。此外,该论文还提出了一种基于指令的诗歌生成方法,能够根据用户指定的风格、韵律和主题生成相应的诗歌。

关键设计:数据集构建的关键设计在于指令的标注。作者设计了一套详细的指令标注规范,包括诗歌的风格、韵律、主题等信息。模型微调的关键设计在于损失函数的选择。作者使用了交叉熵损失函数,并对不同类型的指令设置了不同的权重,以提高模型的生成质量。

📊 实验亮点

实验结果表明,在构建的数据集上微调的大型语言模型能够有效生成符合用户要求的阿拉伯语诗歌。通过自动化指标和人工评估,证明了该方法在诗歌生成质量和指令遵循度方面的优越性。与未经过微调的模型相比,该方法在生成诗歌的流畅性、连贯性和韵律方面均有显著提升。

🎯 应用场景

该研究成果可应用于阿拉伯语诗歌创作辅助工具的开发,帮助诗歌爱好者和专业诗人更高效地创作诗歌。此外,该研究还可以促进阿拉伯语诗歌的传承和发展,吸引更多人关注和参与阿拉伯语诗歌创作。未来,该技术还可扩展到其他语言的诗歌生成领域。

📄 摘要(原文)

Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar