ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

📄 arXiv: 2505.24862v4 📥 PDF

作者: Cailin Zhuang, Ailin Huang, Yaoqi Hu, Jingwei Wu, Wei Cheng, Jiaqi Liao, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Zhewei Huang, Gang Yu, Chi Zhang

分类: cs.CV

发布日期: 2025-05-30 (更新: 2025-12-18)

备注: 33 Pages, Project Page: https://vistorybench.github.io/, Code: https://github.com/vistorybench/vistorybench


💡 一句话要点

ViStoryBench:用于故事可视化的综合性评测基准,涵盖多样叙事结构与风格。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 故事可视化 基准数据集 自动评估指标 角色一致性 风格相似性

📋 核心要点

  1. 现有故事可视化基准数据集在叙事结构、视觉风格和角色设定上存在局限性,难以全面评估模型性能。
  2. ViStoryBench通过构建包含多样化故事、角色参考和多镜头脚本的综合基准,解决了现有基准的不足。
  3. 该基准引入了一系列自动评估指标,包括角色一致性、风格相似性等,并通过人工验证保证评估的有效性。

📝 摘要(中文)

故事可视化旨在生成连贯的图像序列,忠实地描绘叙事并与角色参考对齐。尽管生成模型取得了进展,但现有的基准范围狭窄,通常仅限于简短提示,缺乏角色参考或单图像案例,并且未能捕捉到真实世界故事讲述的复杂性,这阻碍了对模型能力和局限性的细致理解。我们提出了 extbf{ViStoryBench},这是一个综合性基准,旨在评估各种叙事结构、视觉风格和角色设置中的故事可视化模型。该基准包含从文学、电影和民间传说中精选的故事中提取的、带有丰富注释的多镜头脚本。大型语言模型辅助故事总结和脚本生成,所有输出都经过人工验证,以确保连贯性和保真度。精心策划角色参考,以在不同的艺术风格中保持故事内部的一致性。为了实现彻底的评估,ViStoryBench引入了一组自动指标,用于评估角色一致性、风格相似性、提示对齐、美学质量以及生成伪像(如复制粘贴行为)。这些指标通过人工研究进行验证,并用于对各种开源和商业模型进行基准测试。ViStoryBench提供了一个多维评估套件,可促进系统分析并促进视觉故事讲述的未来发展。

🔬 方法详解

问题定义:现有故事可视化基准数据集通常只包含短文本提示,缺乏对角色一致性和视觉风格多样性的考虑,难以评估模型在复杂叙事场景下的生成能力。此外,缺乏有效的自动评估指标,依赖人工评估效率低且主观性强。

核心思路:ViStoryBench的核心思路是构建一个包含多样化故事、角色参考和多镜头脚本的综合性基准数据集,并设计一套自动评估指标,以全面、客观地评估故事可视化模型的性能。通过引入大型语言模型辅助生成脚本,并进行人工验证,保证数据集的质量和一致性。

技术框架:ViStoryBench的构建流程主要包括以下几个阶段:1) 数据收集:从文学、电影和民间传说中收集故事;2) 脚本生成:使用大型语言模型对故事进行总结和脚本生成,并进行人工校对;3) 角色参考生成:为每个故事中的角色生成参考图像,并确保角色在不同镜头中的一致性;4) 指标设计:设计自动评估指标,包括角色一致性、风格相似性、提示对齐、美学质量和生成伪像等;5) 模型评估:使用ViStoryBench对各种故事可视化模型进行评估。

关键创新:ViStoryBench的关键创新在于:1) 提出了一个包含多样化故事和角色参考的综合性基准数据集;2) 设计了一套自动评估指标,可以全面、客观地评估故事可视化模型的性能;3) 利用大型语言模型辅助脚本生成,提高了数据集的构建效率和质量。

关键设计:在角色参考生成方面,论文着重强调了角色在不同镜头和艺术风格下的一致性。在自动评估指标方面,论文设计了多个指标来衡量角色一致性(例如,使用人脸识别技术)、风格相似性(例如,使用图像特征提取技术)和提示对齐(例如,使用文本相似度计算)。这些指标的设计旨在捕捉故事可视化的关键要素,并提供全面的评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViStoryBench通过对多种开源和商业模型进行评估,展示了其在评估故事可视化模型方面的有效性。实验结果表明,现有模型在角色一致性、风格相似性和提示对齐方面仍有提升空间。人工研究验证了自动评估指标与人类感知的相关性,进一步证明了ViStoryBench的可靠性。

🎯 应用场景

ViStoryBench可用于训练和评估故事可视化模型,提高其在生成连贯、一致且符合叙事的图像序列方面的能力。该基准数据集和评估指标可促进视觉故事讲述领域的研究进展,并应用于娱乐、教育和文化传播等领域,例如电影制作、游戏开发、数字艺术创作等。

📄 摘要(原文)

Story visualization aims to generate coherent image sequences that faithfully depict a narrative and align with character references. Despite progress in generative models, existing benchmarks are narrow in scope, often limited to short prompts, lacking character references, or single-image cases, and fail to capture real-world storytelling complexity. This hinders a nuanced understanding of model capabilities and limitations. We present \textbf{ViStoryBench}, a comprehensive benchmark designed to evaluate story visualization models across diverse narrative structures, visual styles, and character settings. The benchmark features richly annotated multi-shot scripts derived from curated stories spanning literature, film, and folklore. Large language models assist in story summarization and script generation, with all outputs human-verified to ensure coherence and fidelity. Character references are carefully curated to maintain intra-story consistency across varying artistic styles. To enable thorough evaluation, ViStoryBench introduces a set of automated metrics that assess character consistency, style similarity, prompt alignment, aesthetic quality, and generation artifacts such as copy-paste behavior. These metrics are validated through human studies, and used to benchmark a broad range of open-source and commercial models. ViStoryBench offers a multi-dimensional evaluation suite that facilitates systematic analysis and fosters future progress in visual storytelling.