Directing the Narrative: A Finetuning Method for Controlling Coherence and Style in Story Generation

📄 arXiv: 2603.17295v1 📥 PDF

作者: Jianzhang Zhang, Yijing Tian, Jiwang Qu, Chuang Liu

分类: cs.CV, cs.AI

发布日期: 2026-03-18


💡 一句话要点

提出基于GSA和DPO的精调方法,用于控制故事生成中的一致性和风格

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 故事生成 图像生成 一致性 风格控制 组共享注意力 直接偏好优化 ViStoryBench

📋 核心要点

  1. 现有故事生成方法在角色一致性和风格保持方面存在不足,尤其是在处理复杂场景和长篇故事时。
  2. 论文提出一种两阶段框架,利用组共享注意力(GSA)和直接偏好优化(DPO)来提升故事生成的一致性和风格。
  3. 实验结果表明,该方法在ViStoryBench基准测试中显著优于现有方法,在角色一致性和风格一致性方面均有大幅提升。

📝 摘要(中文)

故事可视化需要生成与叙事演变在语义上对齐的连续图像,同时保持角色身份和视觉风格的严格一致性。然而,现有方法在描绘复杂交互或扩展叙事弧时,常常难以解决主体不一致和身份漂移的问题。为了应对这些挑战,我们提出了一个有凝聚力的两阶段框架,专为稳健和一致的故事生成而设计。首先,我们引入了组共享注意力(GSA),这是一种通过在注意力层内实现无损的跨样本信息流来促进内在一致性的机制。这使得模型能够在结构上编码跨帧的身份对应关系,而无需依赖外部编码器。其次,我们利用直接偏好优化(DPO)使生成的输出与人类的审美和叙事标准对齐。与依赖冲突辅助损失的传统方法不同,我们的方法通过从整体偏好数据中学习,同时增强视觉保真度和身份保持。在ViStoryBench基准上的广泛评估表明,我们的方法建立了一个新的最先进水平,显著优于强大的基线,在角色身份(CIDS)方面提高了+10.0,在风格一致性(CSD)方面提高了+18.7,同时保持了高保真度的生成。

🔬 方法详解

问题定义:故事生成任务旨在根据文本描述生成一系列图像,难点在于保持生成图像序列中角色身份的一致性以及视觉风格的统一。现有方法容易出现角色身份漂移,风格不连贯等问题,尤其是在长篇故事和复杂场景下,难以保证生成结果的质量。

核心思路:论文的核心思路是利用组共享注意力(GSA)来增强模型对角色身份的结构化理解,并通过直接偏好优化(DPO)来学习人类对故事生成结果的偏好,从而提升生成结果的一致性和风格。GSA 旨在通过共享信息来强制模型学习跨帧的角色对应关系,DPO 则通过直接优化偏好来避免传统方法中辅助损失带来的冲突。

技术框架:该方法包含两个主要阶段:1) 使用组共享注意力(GSA)进行微调,以增强角色一致性;2) 使用直接偏好优化(DPO)进行微调,以提升视觉风格和叙事质量。GSA 模块嵌入到现有的生成模型中,DPO 阶段则利用人类偏好数据来指导模型的优化方向。

关键创新:该方法最重要的创新点在于将组共享注意力(GSA)和直接偏好优化(DPO)结合起来,用于故事生成。GSA 是一种新颖的注意力机制,它允许模型在不同帧之间共享信息,从而更好地理解角色身份。DPO 则是一种直接优化偏好的方法,避免了传统方法中需要手动设计损失函数的复杂性。

关键设计:GSA 的关键设计在于将多个帧的特征视为一个组,并在注意力计算过程中允许组内的信息共享。DPO 的关键设计在于使用人类偏好数据来训练模型,从而使模型能够生成更符合人类审美和叙事标准的故事。具体的参数设置和网络结构细节在论文中有详细描述,但未在此处明确给出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在ViStoryBench基准测试中取得了显著的性能提升,角色身份一致性(CIDS)提高了+10.0,风格一致性(CSD)提高了+18.7,超过了现有的先进方法。这些结果表明,该方法能够有效地提升故事生成的一致性和风格,生成更符合人类审美和叙事标准的故事。

🎯 应用场景

该研究成果可应用于自动化故事创作、电影制作、游戏开发等领域。通过提升故事生成的一致性和风格,可以降低人工成本,提高创作效率,并为用户提供更具吸引力的视觉体验。未来,该技术有望应用于虚拟现实、增强现实等新兴领域,创造更具沉浸感和互动性的故事体验。

📄 摘要(原文)

Story visualization requires generating sequential imagery that aligns semantically with evolving narratives while maintaining rigorous consistency in character identity and visual style. However, existing methodologies often struggle with subject inconsistency and identity drift, particularly when depicting complex interactions or extended narrative arcs. To address these challenges, we propose a cohesive two-stage framework designed for robust and consistent story generation. First, we introduce Group-Shared Attention (GSA), a mechanism that fosters intrinsic consistency by enabling lossless cross-sample information flow within attention layers. This allows the model to structurally encode identity correspondence across frames without relying on external encoders. Second, we leverage Direct Preference Optimization (DPO) to align generated outputs with human aesthetic and narrative standards. Unlike conventional methods that rely on conflicting auxiliary losses, our approach simultaneously enhances visual fidelity and identity preservation by learning from holistic preference data. Extensive evaluations on the ViStoryBench benchmark demonstrate that our method establishes a new state-of-the-art, significantly outperforming strong baselines with gains of +10.0 in Character Identity (CIDS) and +18.7 in Style Consistency (CSD), all while preserving high-fidelity generation.