SCORE: Story Coherence and Retrieval Enhancement for AI Narratives

📄 arXiv: 2503.23512v6 📥 PDF

作者: Qiang Yi, Yangfan He, Jianhui Wang, Xinyuan Song, ShiYao Qian, Xinhang Yuan, Yi Xin, Yijin Wang, Jingqun Tang, Yuchen Li, Junjiang Lin, Hongyang He, Zhen Tian, Tianxiang Xu, Keqin Li, Kuan Lu, Menghao Huo, Jiaqi Chen, Miao Zhang, Tianyu Shi, Jianyuan Ni

分类: cs.CL

发布日期: 2025-03-30 (更新: 2025-09-17)


💡 一句话要点

提出SCORE框架,增强AI生成叙事的连贯性和检索能力,解决故事一致性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI叙事 故事连贯性 检索增强生成 大型语言模型 情节摘要

📋 核心要点

  1. AI生成叙事面临连贯性和情感深度不足的挑战,现有方法难以保证故事逻辑一致。
  2. SCORE框架通过跟踪物品状态和生成情节摘要,利用RAG方法检索相关情节,增强故事结构。
  3. 实验结果表明,SCORE显著提升了AI生成故事的连贯性和稳定性,优于基线GPT模型。

📝 摘要(中文)

大型语言模型(LLMs)能够根据用户指定的输入生成富有创意且引人入胜的叙事,但如何在这些AI生成的故事中保持连贯性和情感深度仍然是一个挑战。本文提出了SCORE,一个故事连贯性和检索增强框架,旨在检测和解决叙事中的不一致性。通过跟踪关键物品状态和生成情节摘要,SCORE使用检索增强生成(RAG)方法来识别相关情节并增强整体故事结构。对多个LLM生成的故事进行测试的实验结果表明,与基线GPT模型相比,SCORE显著提高了叙事连贯性的一致性和稳定性,为评估和改进AI生成叙事提供了一种更强大的方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在生成故事时,难以维持叙事连贯性和一致性的问题。现有方法在处理长篇故事时,容易出现逻辑错误、角色行为不一致等问题,影响故事的质量和可读性。这些问题源于LLM在生成过程中缺乏对全局信息的有效利用和对关键细节的持续追踪。

核心思路:SCORE框架的核心思路是利用检索增强生成(RAG)方法,通过外部知识库来辅助LLM生成故事。具体来说,它通过跟踪故事中关键物品的状态变化,并生成每个情节的摘要,构建一个动态的知识库。在生成后续情节时,通过检索知识库中相关的情节,为LLM提供上下文信息,从而提高故事的连贯性和一致性。

技术框架:SCORE框架主要包含以下几个模块:1) 物品状态跟踪器:负责跟踪故事中关键物品的状态变化,例如物品的持有者、位置、属性等。2) 情节摘要生成器:负责生成每个情节的摘要,包括情节的主要内容、涉及的人物和物品等。3) 检索器:负责根据当前情节的上下文信息,从知识库中检索相关的情节。4) 生成器:利用检索到的相关情节,辅助LLM生成新的情节。整个流程是循环迭代的,每个新生成的情节都会被添加到知识库中,用于后续情节的生成。

关键创新:SCORE框架的关键创新在于将物品状态跟踪和情节摘要生成与RAG方法相结合,构建了一个动态的知识库,用于辅助LLM生成故事。这种方法能够有效地解决LLM在生成长篇故事时,容易出现逻辑错误和角色行为不一致的问题。与传统的RAG方法相比,SCORE框架更加关注故事内部的逻辑关系和细节信息,从而能够生成更加连贯和一致的故事。

关键设计:SCORE框架的具体实现细节包括:1) 使用预训练的语言模型(如BERT)来提取情节摘要的语义特征。2) 使用余弦相似度来衡量情节之间的相关性。3) 在生成新情节时,将检索到的相关情节与当前情节的上下文信息拼接在一起,作为LLM的输入。4) 使用交叉熵损失函数来训练LLM,目标是最大化生成情节的概率。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SCORE框架在故事连贯性和稳定性方面显著优于基线GPT模型。具体来说,通过人工评估,SCORE框架生成的故事在逻辑一致性、角色行为一致性等方面均有明显提升。此外,实验还表明,SCORE框架能够有效地解决LLM在生成长篇故事时,容易出现的重复和矛盾等问题。

🎯 应用场景

SCORE框架可应用于多种AI叙事场景,如游戏剧情生成、小说创作辅助、电影剧本编写等。通过提高故事的连贯性和一致性,该框架能够提升用户体验,降低创作成本,并为AI内容生成带来更广阔的应用前景。未来,该技术有望在教育、娱乐等领域发挥重要作用。

📄 摘要(原文)

Large Language Models (LLMs) can generate creative and engaging narratives from user-specified input, but maintaining coherence and emotional depth throughout these AI-generated stories remains a challenge. In this work, we propose SCORE, a framework for Story Coherence and Retrieval Enhancement, designed to detect and resolve narrative inconsistencies. By tracking key item statuses and generating episode summaries, SCORE uses a Retrieval-Augmented Generation (RAG) approach to identify related episodes and enhance the overall story structure. Experimental results from testing multiple LLM-generated stories demonstrate that SCORE significantly improves the consistency and stability of narrative coherence compared to baseline GPT models, providing a more robust method for evaluating and refining AI-generated narratives.