Are Large Language Models Capable of Generating Human-Level Narratives?

作者: Yufei Tian, Tenghao Huang, Miri Liu, Derek Jiang, Alexander Spangher, Muhao Chen, Jonathan May, Nanyun Peng

分类: cs.CL

发布日期: 2024-07-18 (更新: 2024-10-04)

备注: EMNLP 2024

💡 一句话要点

分析LLM生成叙事能力，揭示其在故事发展和情感表达上的局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 故事叙述 叙事分析 情感计算 自然语言生成

📋 核心要点

现有方法难以全面评估LLM在故事叙述中，情节发展、情感表达和叙事结构等方面的能力。
论文提出一种新的计算框架，从故事弧线、转折点和情感维度三个方面分析LLM生成的故事。
实验表明，LLM生成的故事在悬念、情感和多样性方面不如人类，但显式整合话语特征可显著提升LLM的叙事能力。

📝 摘要（中文）

本文研究了大型语言模型（LLM）在故事叙述方面的能力，重点关注叙事发展和情节推进。我们引入了一个新颖的计算框架，通过三个话语层面的要素来分析叙事：i) 故事弧线，ii) 转折点，以及 iii) 情感维度，包括唤醒度和效价。通过利用专家和自动标注，我们揭示了LLM生成的故事与人类创作的故事之间存在的显著差异。人类创作的故事通常更具悬念、更能唤醒情感，并且在叙事结构上更加多样化，而LLM生成的故事则趋于同质化，情感表达偏向积极，并且缺乏紧张感。此外，我们评估了叙事推理能力，以此作为生成能力的前提，结论表明大多数LLM在话语理解方面都无法达到人类的水平。最后，我们证明了显式地整合上述话语特征可以增强故事叙述能力，在多样性、悬念和唤醒度方面，神经故事叙述能力提升超过40%。

🔬 方法详解

问题定义：本文旨在评估大型语言模型（LLM）生成人类水平叙事的能力。现有方法缺乏对故事叙事中关键要素（如故事弧线、转折点和情感维度）的深入分析，导致无法全面了解LLM在情节发展和情感表达方面的局限性。LLM生成的故事往往缺乏人类故事的悬念、情感张力和多样性，这限制了其在创意写作等领域的应用。

核心思路：论文的核心思路是通过构建一个计算框架，从话语层面分析LLM生成的故事，并与人类创作的故事进行对比。该框架关注故事弧线、转折点和情感维度（唤醒度和效价）三个关键要素，旨在量化LLM在叙事结构和情感表达方面的不足。通过显式地将这些要素整合到LLM的训练过程中，可以提升其故事叙述能力。

技术框架：整体框架包含以下几个主要阶段：1) 数据收集：收集人类创作的故事和LLM生成的故事。2) 标注：使用专家和自动方法对故事进行标注，提取故事弧线、转折点和情感维度等特征。3) 分析：对比LLM生成的故事和人类创作的故事在这些特征上的差异。4) 增强：将提取的特征显式地整合到LLM的训练过程中，以提升其故事叙述能力。

关键创新：论文的关键创新在于提出了一个新颖的计算框架，用于分析故事叙事中的话语层面要素。该框架不仅关注情节发展，还关注情感表达和叙事结构，从而能够更全面地评估LLM的叙事能力。此外，论文还证明了显式地整合这些要素可以显著提升LLM的故事叙述能力。

关键设计：论文使用了多种技术细节来支持其研究。例如，使用预训练的情感分析模型来自动标注故事的情感维度。在增强LLM的故事叙述能力时，使用了特定的损失函数来鼓励LLM生成更具悬念、情感张力和多样性的故事。具体参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM生成的故事在多样性、悬念和唤醒度方面不如人类创作的故事。然而，通过显式地整合话语特征，神经故事叙述能力在多样性、悬念和唤醒度方面提升超过40%。这表明，通过有针对性的改进，可以显著提升LLM的故事叙述能力。

🎯 应用场景

该研究成果可应用于提升LLM在创意写作、游戏剧情生成、教育内容创作等领域的应用能力。通过理解LLM在叙事方面的局限性，并有针对性地进行改进，可以开发出更具吸引力和情感共鸣的故事生成系统，从而为用户提供更优质的内容体验。

📄 摘要（原文）

This paper investigates the capability of LLMs in storytelling, focusing on narrative development and plot progression. We introduce a novel computational framework to analyze narratives through three discourse-level aspects: i) story arcs, ii) turning points, and iii) affective dimensions, including arousal and valence. By leveraging expert and automatic annotations, we uncover significant discrepancies between the LLM- and human- written stories. While human-written stories are suspenseful, arousing, and diverse in narrative structures, LLM stories are homogeneously positive and lack tension. Next, we measure narrative reasoning skills as a precursor to generative capacities, concluding that most LLMs fall short of human abilities in discourse understanding. Finally, we show that explicit integration of aforementioned discourse features can enhance storytelling, as is demonstrated by over 40% improvement in neural storytelling in terms of diversity, suspense, and arousal.

Are Large Language Models Capable of Generating Human-Level Narratives?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理