StoryAlign: Evaluating and Training Reward Models for Story Generation

📄 arXiv: 2605.04831v1 📥 PDF

作者: Haotian Xia, Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li

分类: cs.CL, cs.AI

发布日期: 2026-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

StoryAlign提出StoryReward模型和StoryRMB基准,提升故事生成中人类偏好对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 故事生成 奖励模型 人类偏好 基准测试 大型语言模型

📋 核心要点

  1. 现有故事生成模型难以捕捉人类对故事的偏好,导致生成的故事缺乏吸引力且结构不佳。
  2. 论文提出StoryReward模型,通过大规模故事偏好数据训练,学习人类对故事的偏好。
  3. 实验表明,StoryReward在StoryRMB基准上取得了SOTA性能,并在下游任务中表现出更好的偏好对齐能力。

📝 摘要(中文)

故事生成旨在自动产生连贯、结构化和引人入胜的叙述。尽管大型语言模型(LLMs)在文本生成方面取得了显著进展,但LLMs生成的故事在复杂的叙事结构和与人类对齐的偏好方面仍然与人类创作的作品存在差异。一个关键原因是缺乏对人类故事偏好的有效建模,这些偏好本质上是主观的且未被充分探索。在这项工作中,我们系统地评估了人类故事偏好的建模,并引入了StoryRMB,这是第一个用于评估故事偏好奖励模型的基准。StoryRMB包含1,133个高质量、人工验证的实例,每个实例包含一个提示、一个选择的故事和三个拒绝的故事。我们发现现有的奖励模型难以选择人类偏好的故事,最好的模型仅达到66.3%的准确率。为了解决这个限制,我们构建了大约100,000个高质量的故事偏好对,涵盖不同的领域,并开发了StoryReward,这是一个用于故事偏好的先进奖励模型,在该数据集上进行训练。StoryReward在StoryRMB上实现了最先进(SoTA)的性能,优于更大的模型。我们还在下游的测试时缩放应用中采用StoryReward进行best-of-n(BoN)故事选择,发现它通常选择与人类偏好更一致的故事。我们将发布我们的数据集、模型和代码,以促进未来的研究。

🔬 方法详解

问题定义:现有故事生成模型,特别是基于大型语言模型(LLMs)的模型,虽然在文本生成方面取得了进展,但仍然难以生成符合人类偏好和具有复杂叙事结构的故事。主要痛点在于缺乏有效建模人类故事偏好的方法,而这些偏好是主观且难以捉摸的。现有奖励模型在选择人类偏好的故事时表现不佳,表明需要更有效的方法来对齐模型与人类的价值观。

核心思路:论文的核心思路是通过构建大规模高质量的故事偏好数据集,并在此基础上训练一个奖励模型(StoryReward),使其能够准确评估故事与人类偏好的一致性。通过学习大量的偏好数据,StoryReward能够更好地捕捉人类对故事的复杂偏好,从而指导故事生成模型生成更符合人类期望的故事。

技术框架:整体框架包括两个主要部分:一是StoryRMB基准的构建,用于评估奖励模型;二是StoryReward模型的训练。StoryRMB包含提示、选择的故事和拒绝的故事,用于评估奖励模型选择人类偏好故事的能力。StoryReward模型通过在包含约10万个故事偏好对的数据集上进行训练,学习对故事进行评分,以反映其与人类偏好的一致性。在下游任务中,StoryReward被用于best-of-n (BoN) 故事选择,即从多个生成的故事中选择得分最高的那个。

关键创新:论文的关键创新在于:1) 提出了StoryRMB基准,为故事偏好建模提供了一个标准化的评估平台;2) 构建了大规模高质量的故事偏好数据集,为训练有效的奖励模型提供了数据基础;3) 开发了StoryReward模型,在故事偏好建模方面取得了SOTA性能。与现有方法的本质区别在于,StoryReward更加注重对人类偏好的直接建模,而不是仅仅依赖于间接的语言模型目标。

关键设计:StoryReward模型的具体结构和训练细节未在摘要中详细说明。但是,可以推断其可能采用了Transformer架构,并使用pairwise ranking loss进行训练,以区分选择的故事和拒绝的故事。数据集的构建过程可能涉及人工标注和验证,以确保数据的质量和一致性。BoN选择策略中,StoryReward模型为每个生成的故事打分,选择得分最高的作为最终输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

StoryReward在StoryRMB基准上取得了最先进的性能,显著优于现有奖励模型,准确率达到SOTA水平。即使与更大的模型相比,StoryReward也表现出更强的偏好对齐能力。在下游的best-of-n故事选择任务中,StoryReward能够选择更符合人类偏好的故事,验证了其有效性。

🎯 应用场景

该研究成果可应用于各种故事生成场景,例如辅助写作、游戏剧情生成、创意内容生成等。通过使用StoryReward模型,可以生成更符合用户偏好、更具吸引力的故事内容,提升用户体验和内容质量。未来,该技术有望应用于个性化故事推荐、智能写作助手等领域,为内容创作带来更多可能性。

📄 摘要(原文)

Story generation aims to automatically produce coherent, structured, and engaging narratives. Although large language models (LLMs) have significantly advanced text generation, stories generated by LLMs still diverge from human-authored works regarding complex narrative structure and human-aligned preferences. A key reason is the absence of effective modeling of human story preferences, which are inherently subjective and under-explored. In this work, we systematically evaluate the modeling of human story preferences and introduce StoryRMB, the first benchmark for assessing reward models on story preferences. StoryRMB contains $1,133$ high-quality, human-verified instances, each consisting of a prompt, one chosen story, and three rejected stories. We find existing reward models struggle to select human-preferred stories, with the best model achieving only $66.3\%$ accuracy. To address this limitation, we construct roughly $100,000$ high-quality story preference pairs across diverse domains and develop StoryReward, an advanced reward model for story preference trained on this dataset. StoryReward achieves state-of-the-art (SoTA) performance on StoryRMB, outperforming much larger models. We also adopt StoryReward in downstream test-time scaling applications for best-of-n (BoN) story selection and find that it generally chooses stories better aligned with human preferences. We will release our dataset, model, and code to facilitate future research. Related code and data are available at https://github.com/THU-KEG/StoryReward.