TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and Advanced Decoding Techniques

📄 arXiv: 2312.02125v2 📥 PDF

作者: Amir Panahandeh, Hanie Asemi, Esmaeil Nourani

分类: cs.CL, cs.AI, cs.LG

发布日期: 2023-12-04 (更新: 2023-12-06)


💡 一句话要点

TPPoet:提出一种基于Transformer的波斯语诗歌生成模型,利用少量数据和高级解码技术提升生成质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 波斯语诗歌生成 Transformer模型 小样本学习 解码方法 自然语言生成

📋 核心要点

  1. 现有语言模型在小数据集和创造性任务上存在挑战,难以生成高质量的艺术文本。
  2. 论文提出使用Transformer架构,在无预训练的专门数据集上训练波斯语诗歌生成模型。
  3. 通过新颖的解码方法,模型在诗歌的连贯性和意义上取得了显著提升,优于现有方法。

📝 摘要(中文)

本文旨在解决语言模型在小数据集上以及在复制人类创造性能力方面的挑战。研究提出了一种基于Transformer架构的波斯古典诗歌生成模型,该模型在一个专门的数据集上进行训练,无需预训练。此外,论文还提出了一种新颖的解码方法,以增强生成诗歌的连贯性和意义,有效地管理了多样性和质量之间的权衡。通过全面的自动和人工评估,结果表明,与其它解码方法和现有的波斯语大型语言模型(LLM)相比,该模型在生成连贯且有意义的诗歌方面具有卓越的能力。

🔬 方法详解

问题定义:现有的语言模型在处理小规模数据集时,往往难以捕捉到特定领域(如古典诗歌)的细微特征和创作规则。此外,如何平衡生成文本的多样性和质量,避免生成缺乏连贯性和意义的内容,也是一个重要的挑战。尤其是在波斯语诗歌生成领域,缺乏针对性的模型和训练数据。

核心思路:论文的核心思路是利用Transformer架构强大的序列建模能力,直接在波斯语古典诗歌数据集上进行训练,避免预训练带来的领域知识偏差。同时,设计一种新的解码方法,在生成过程中显式地控制诗歌的连贯性和意义,从而提升生成质量。

技术框架:该模型采用标准的Transformer编码器-解码器结构。编码器负责将输入的诗歌片段转换为隐藏表示,解码器则基于这些表示生成后续的诗句。整个训练流程包括数据预处理、模型训练和解码三个主要阶段。数据预处理阶段对原始诗歌数据进行清洗和格式化,模型训练阶段使用交叉熵损失函数优化模型参数,解码阶段则采用提出的新颖解码方法生成诗歌。

关键创新:论文的关键创新在于提出的新颖解码方法。该方法在传统的束搜索(Beam Search)基础上,引入了额外的约束条件和评分机制,以鼓励生成更连贯和有意义的诗句。具体来说,该方法考虑了诗歌的韵律、主题和情感等因素,并根据这些因素对候选诗句进行评分,从而选择最佳的生成结果。

关键设计:在模型训练方面,论文采用了Adam优化器,并设置了合适的学习率和批次大小。在解码方面,提出的新颖解码方法需要设置一些超参数,例如韵律、主题和情感等因素的权重。这些超参数需要根据具体的诗歌风格和数据集进行调整。损失函数采用标准的交叉熵损失函数,用于衡量生成诗句与真实诗句之间的差异。

📊 实验亮点

实验结果表明,提出的TPPoet模型在波斯语诗歌生成任务上取得了显著的性能提升。通过自动评估指标和人工评估,该模型生成的诗歌在连贯性、意义性和创造性方面均优于其他解码方法和现有的波斯语大型语言模型。具体来说,人工评估结果显示,TPPoet模型生成的诗歌在流畅度和艺术性方面获得了更高的评分。

🎯 应用场景

该研究成果可应用于波斯语诗歌创作辅助、文化传承和教育等领域。例如,可以开发智能诗歌生成工具,帮助诗人寻找创作灵感;也可以用于诗歌教学,让学生更好地理解和欣赏波斯古典诗歌的魅力。此外,该方法还可以推广到其他语言和文学体裁的生成任务中,具有广泛的应用前景。

📄 摘要(原文)

Recent advances in language models (LMs), have demonstrated significant efficacy in tasks related to the arts and humanities. While LMs have exhibited exceptional performance across a wide range of natural language processing tasks, there are notable challenges associated with their utilization on small datasets and their ability to replicate more creative human capacities. In this study, we aim to address these challenges by training a Persian classical poetry generation model using a transformer architecture on a specialized dataset with no pretraining. Additionally, we propose a novel decoding method to enhance coherence and meaningfulness in the generated poetry, effectively managing the tradeoff between diversity and quality. Furthermore, the results of our training approach and the proposed decoding method are evaluated through comprehensive set of automatic and human evaluations and showed its superior capability to generate coherent and meaningful poetry in compare to other decoding methods and an existing Persian large language model (LLM).