Narrative Flattening: How Post-Training Compresses Thematic, Affective, and Stylistic Variation in LLM Fiction

📄 arXiv: 2605.27878v1 📥 PDF

作者: Zehan Li, Yutong Zhu, Siyang Wu, Honglin Bao, James A. Evans

分类: cs.CL

发布日期: 2026-05-27


💡 一句话要点

后训练压缩LLM小说的主题、情感和文风变化,导致叙事扁平化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 小说生成 叙事扁平化 后训练 风格迁移

📋 核心要点

  1. 现有LLM生成小说流畅但缺乏深度,其根本原因和对不同小说类型的影响尚不明确。
  2. 通过对比不同训练阶段的LLM续写与人类续写,分析主题、情感和文风的变化,揭示“叙事扁平化”现象。
  3. 实验表明,后训练会压缩叙事动态变化,专业文学小说受影响最大,且不同领域最终趋于一致。

📝 摘要(中文)

大型语言模型(LLM)能够生成流畅的小说,但其创造性产出普遍被认为缺乏深度。本文研究了这种“扁平化”特质的根源,以及它对不同类型人类小说的影响。研究构建了一个匹配的故事续写范式,涵盖StoryStar(公共平台)、TMAS(提示引导)和《纽约客》(专业文学)三种来源,并比较了四个OLMo 32B检查点(Base、SFT、DPO、RLVR)的续写结果与对应的人类文本。由于这些检查点共享架构、规模、分词器和预训练数据,该设计旨在隔离后训练的影响。研究从主题变化、情感流行度和语言多样性三个句子层面的维度评估了每个续写。结果表明,在所有三个维度上,后训练都会压缩动态变化:主题过渡变得更加均匀,高强度情感让位于中性,故事之间的文风多样性降低。作者将这种渐进式的损失称为“叙事扁平化”。这种效应在不同故事领域中方向稳定,但差距大小取决于人类基线:专业文学小说的压缩程度最大,而公共平台和提示引导的故事显示出较小的差距,这与它们的人类基线更接近模型的默认节奏一致。经过后训练的终点在各个领域趋于一致,表明对齐产生了一种续写机制,该机制在很大程度上对源领域的叙事纹理不敏感。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在生成小说时出现的“叙事扁平化”现象,即缺乏深度和变化。现有方法难以解释这种现象的根源,以及它对不同类型小说(如公共平台小说、提示引导小说和专业文学小说)的影响差异。现有研究缺乏对LLM训练过程中不同阶段(如预训练、监督微调、直接偏好优化和强化学习)的细致分析,无法有效隔离后训练对叙事风格的影响。

核心思路:论文的核心思路是通过构建一个匹配的故事续写范式,比较不同训练阶段的LLM续写结果与对应的人类文本,从而量化分析LLM在主题、情感和文风上的变化。通过控制LLM的架构、规模、分词器和预训练数据,研究能够隔离后训练对叙事风格的影响,并揭示“叙事扁平化”现象的本质。

技术框架:整体框架包括以下几个主要步骤:1) 构建故事续写数据集,涵盖StoryStar、TMAS和《纽约客》三种来源;2) 选择四个OLMo 32B检查点(Base、SFT、DPO、RLVR)作为实验对象;3) 使用这些检查点对数据集中的故事进行续写;4) 从主题变化、情感流行度和语言多样性三个句子层面的维度评估续写结果;5) 将LLM续写结果与对应的人类文本进行比较,分析后训练对叙事风格的影响。

关键创新:最重要的技术创新点在于通过控制实验条件,隔离了后训练对LLM叙事风格的影响。与现有方法相比,该研究能够更精确地量化“叙事扁平化”现象,并揭示其在不同类型小说中的差异。此外,该研究还提出了三个句子层面的评估指标(主题变化、情感流行度和语言多样性),用于量化分析LLM的叙事风格。

关键设计:关键设计包括:1) 选择OLMo 32B模型,因为它是一个开源的、可控的模型,方便进行实验和分析;2) 使用StoryStar、TMAS和《纽约客》三种来源的故事,以覆盖不同类型的小说;3) 使用主题变化、情感流行度和语言多样性三个句子层面的指标,以全面评估LLM的叙事风格;4) 使用人类文本作为基线,以评估LLM的叙事风格与人类的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,后训练会压缩LLM叙事的动态变化,导致主题过渡更均匀,情感表达更中性,文风多样性降低。专业文学小说受到的压缩程度最大,而公共平台和提示引导的小说受到的影响较小。经过后训练的LLM在不同领域趋于一致,表明其续写风格对源领域的叙事纹理不敏感。

🎯 应用场景

该研究成果可应用于提升LLM生成小说的质量和多样性,例如通过调整后训练策略,减少“叙事扁平化”现象,使LLM能够更好地模仿不同类型小说的风格。此外,该研究提出的评估指标也可用于评估和比较不同LLM的叙事能力,为LLM的开发和应用提供指导。

📄 摘要(原文)

Large language models produce fluent fiction, yet their creative output is widely seen as flat. We ask where this quality originates in the training and whether it affects different domains of human fiction equally. We construct a matched story-continuation paradigm across StoryStar (public-platform), TMAS (prompt-guided), and The New Yorker (professional literary)-and compare continuations from four OLMo 32B checkpoints (Base, SFT, DPO, RLVR) against matched human text. Because these checkpoints share architecture, scale, tokenizer, and pretraining, the design isolates the post-training effect. We measure each continuation along three sentence-level dimensions: thematic motion, affective prevalence, and linguistic diversity. Across all three, post-training compresses dynamic variation: thematic transitions become more uniform, high-intensity emotions give way to neutrality, and stylistic diversity across stories shrinks. We term this progressive loss narrative flattening. The effect is directionally stable across story domains but gap size depends on the human baseline: professional literary fiction is compressed most, while public-platform and prompt-guided stories show smaller gaps, consistent with their human baselines sitting closer to the model's default rhythm. Post-trained endpoints converge across domains, suggesting alignment produces a continuation regime largely insensitive to the source domain's narrative texture.