Crafting Narrative Closures: Zero-Shot Learning with SSM Mamba for Short Story Ending Generation
作者: Divyam Sharma, Divya Santhanam
分类: cs.CL, cs.AI
发布日期: 2024-10-04
备注: 9 pages
💡 一句话要点
提出基于SSM Mamba的零样本短故事结局生成方法,助力创意写作。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 短故事生成 结局生成 零样本学习 SSM Mamba 状态空间模型
📋 核心要点
- 现有故事生成方法难以应对作者的创意瓶颈,缺乏根据用户提示生成高质量结局的能力。
- 利用预训练GPT-3.5和微调SSM-Mamba模型,实现零样本短故事结局生成,辅助作者进行创意写作。
- 实验表明,该方法在BERT score、METEOR等指标上表现良好,并在HuggingFace上开源SSM模型。
📝 摘要(中文)
本文旨在解决故事创作中作者面临的创意瓶颈问题。提出了一种创新的解决方案:一个基于提示完成故事的工具。用户输入一个短故事提示,即可获得一个或多个句子的故事结局,从而利用人工智能驱动的创造力来增强故事讲述过程。该工具不仅旨在帮助作者摆脱写作障碍,还为任何人提供了一种有趣且互动的方式来扩展故事创意。本文探索了人工智能和创意写作的交叉点,推动了故事创作和结局方式的界限。为了创建最终的文本生成模型,使用了预训练的GPT-3.5模型和一个新创建的微调SSM-Mamba模型,这两个模型在包括BERT score、METEOR、BLEU、ROUGE和Perplexity在内的综合指标列表中表现良好。SSM模型也已在HuggingFace模型上向NLP社区公开,作为开源贡献,目前是HuggingFace上第一个用于故事生成任务的状态空间模型。
🔬 方法详解
问题定义:论文旨在解决短故事结局自动生成的问题,即给定一个故事的开头(prompt),自动生成一个合理的结局。现有方法可能存在生成结局质量不高、与prompt关联性不强、缺乏新颖性等问题,难以有效帮助作者克服写作瓶颈。
核心思路:论文的核心思路是利用预训练语言模型强大的文本生成能力,结合状态空间模型(SSM)Mamba的序列建模优势,实现高质量的零样本故事结局生成。通过微调Mamba模型,使其更好地适应故事生成任务,从而生成更具创意和连贯性的结局。
技术框架:整体框架包含两个主要模型:预训练的GPT-3.5模型和微调的SSM-Mamba模型。用户输入故事prompt,两个模型分别生成故事结局,然后通过一系列指标(BERT score、METEOR、BLEU、ROUGE、Perplexity)对生成结果进行评估。最终选择表现最好的模型作为故事结局生成工具。
关键创新:论文的关键创新在于将SSM Mamba模型应用于短故事结局生成任务,并开源了微调后的模型。Mamba模型作为一种新型的状态空间模型,具有高效的序列建模能力,能够更好地捕捉故事中的长程依赖关系,从而生成更连贯的结局。这是首次将该模型应用于故事生成领域。
关键设计:论文使用了预训练的GPT-3.5模型作为baseline,并在此基础上微调了SSM-Mamba模型。微调过程中,使用了故事数据集,并优化了模型的参数,使其更好地适应故事生成任务。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文使用了预训练的GPT-3.5模型和微调的SSM-Mamba模型,并在包括BERT score、METEOR、BLEU、ROUGE和Perplexity在内的综合指标列表中进行了评估。摘要中没有给出具体的性能数据和提升幅度,属于未知信息。但强调了SSM-Mamba模型在故事生成任务上的良好表现。
🎯 应用场景
该研究成果可应用于辅助创意写作、智能故事生成、教育娱乐等领域。例如,可以开发智能写作助手,帮助作者快速生成故事结局,激发创作灵感。此外,还可以应用于游戏开发,自动生成游戏剧情,提升游戏体验。该研究有望推动人工智能在创意内容生成领域的应用。
📄 摘要(原文)
Writing stories is an engaging yet challenging endeavor. Often, authors encounter moments of creative block, where the path forward in their narrative becomes obscured. This paper is designed to address such moments by providing an innovative solution: A tool that completes stories based on given prompts. By inputting a short story prompt, users can receive a conclusion to their story, articulated in one sentence or more, thereby enhancing the storytelling process with AI-driven creativity. This tool aims not only to assist authors in navigating writer's block but also to offer a fun and interactive way for anyone to expand on story ideas spontaneously. Through this paper, we explore the intersection of artificial intelligence and creative writing, pushing the boundaries of how stories can be crafted and concluded. To create our final text-generation models, we used a pre-trained GPT-3.5 model and a newly created finetuned SSM-Mamba model, both of which perform well on a comprehensive list of metrics including BERT score, METEOR, BLEU, ROUGE, and Perplexity. The SSM model has also been made public for the NLP community on HuggingFace models as an open source contribution, which for the timebeing is a first of its kind state-space model for story-generation task on HuggingFace.