DATAREEL: Automated Data-Driven Video Story Generation with Animations

📄 arXiv: 2604.25220v1 📥 PDF

作者: Ridwan Mahbub, Syem Aziz, Mahir Ahmed, Shadikur Rahman, Mizanur Rahman, Shafiq Joty, Enamul Hoque

分类: cs.AI

发布日期: 2026-04-28

备注: Under Review

🔗 代码/项目: GITHUB


💡 一句话要点

DataReel:提出一个自动生成动画数据视频故事的基准和多智能体框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据视频生成 动画可视化 多智能体系统 自然语言生成 基准数据集

📋 核心要点

  1. 现有方法在生成数据驱动的视频故事时,难以协调视觉编码、时间进展和叙述,需要专业的可视化设计、动画和视频编辑知识。
  2. 论文提出一个多智能体框架,将视频故事生成分解为规划、生成和验证阶段,模仿人类讲故事的过程,从而更好地协调动画、叙述和视觉重点。
  3. 实验表明,提出的多智能体框架在自动和人工评估中均优于直接提示基线,验证了该方法的有效性,但仍存在动画、叙述和视觉重点协调的挑战。

📝 摘要(中文)

数据视频是一种强大的视觉数据叙事媒介,它将动画、以图表为中心的视觉效果与同步的叙述相结合。它们广泛应用于新闻、教育和公共传播领域,通过清晰且引人入胜的视觉解释帮助观众理解复杂的数据。尽管它们的影响日益增长,但生成数据驱动的视频故事仍然具有挑战性,因为它需要仔细协调视觉编码、时间进展和叙述,以及在可视化设计、动画和视频编辑工具方面的丰富专业知识。大型语言模型的最新进展为自动化这一过程提供了新的机会;然而,目前还没有基准来严格评估基于动画可视化的视频故事生成模型。为了解决这一差距,我们引入了DataReel,这是一个用于自动数据驱动视频故事生成的基准,包含328个真实世界的故事。每个故事都配对结构化数据、图表可视化和叙述文本,从而能够系统地评估模型生成动画数据视频故事的能力。我们进一步提出了一个多智能体框架,该框架将任务分解为规划、生成和验证阶段,反映了人类故事讲述过程的关键方面。实验表明,这种多智能体方法在自动和人工评估下都优于直接提示基线,同时揭示了在协调动画、叙述和视觉重点方面的持续挑战。我们在https://github.com/vis-nlp/DataReel发布了DataReel。

🔬 方法详解

问题定义:论文旨在解决自动生成数据驱动视频故事的问题。现有方法需要人工干预,且难以协调动画、叙述和视觉重点,导致生成过程复杂且耗时。缺乏一个标准化的基准数据集来评估和比较不同模型的性能,阻碍了该领域的发展。

核心思路:论文的核心思路是将视频故事生成过程分解为多个阶段,每个阶段由不同的智能体负责,从而模拟人类讲故事的过程。通过规划智能体确定故事的结构和关键信息,生成智能体负责生成视觉内容和叙述文本,验证智能体负责评估生成结果的质量,最终实现自动化、高质量的视频故事生成。

技术框架:论文提出的多智能体框架包含三个主要阶段:规划阶段、生成阶段和验证阶段。规划阶段使用规划智能体根据输入数据和故事目标,确定视频故事的结构和关键信息。生成阶段使用生成智能体,基于规划阶段的结果,生成图表可视化、动画和叙述文本。验证阶段使用验证智能体评估生成结果的质量,并提供反馈以改进生成过程。

关键创新:论文的关键创新在于提出了一个多智能体框架,将视频故事生成过程分解为多个阶段,每个阶段由不同的智能体负责。这种分解方法使得模型能够更好地协调动画、叙述和视觉重点,从而生成更具吸引力和信息量的视频故事。此外,论文还构建了一个名为DataReel的基准数据集,用于评估和比较不同模型的性能。

关键设计:DataReel数据集包含328个真实世界的故事,每个故事都配对结构化数据、图表可视化和叙述文本。多智能体框架中的每个智能体都使用大型语言模型进行训练。规划智能体使用提示工程来确定故事的结构和关键信息。生成智能体使用文本到图像模型和文本到视频模型来生成视觉内容和动画。验证智能体使用预训练的语言模型来评估生成结果的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的多智能体框架在自动评估(BLEU、ROUGE等指标)和人工评估中均优于直接提示基线。例如,在人工评估中,多智能体框架生成的视频故事在流畅性、相关性和信息量方面均获得了更高的评分。这些结果验证了该方法的有效性,并表明其在自动生成数据驱动视频故事方面具有潜力。

🎯 应用场景

该研究成果可应用于新闻报道、教育培训、公共宣传等领域,帮助用户快速生成高质量的数据视频,从而更有效地传递信息、提高受众的理解和参与度。未来,该技术有望进一步发展,实现更智能、更个性化的视频故事生成。

📄 摘要(原文)

Data videos are a powerful medium for visual data based storytelling, combining animated, chart-centric visualizations with synchronized narration. Widely used in journalism, education, and public communication, they help audiences understand complex data through clear and engaging visual explanations. Despite their growing impact, generating data-driven video stories remains challenging, as it requires careful coordination of visual encoding, temporal progression, and narration and substantial expertise in visualization design, animation, and video-editing tools. Recent advances in large language models offer new opportunities to automate this process; however, there is currently no benchmark for rigorously evaluating models on animated visualization-based video storytelling. To address this gap, we introduce DataReel, a benchmark for automated data-driven video story generation comprising 328 real-world stories. Each story pairs structured data, a chart visualization, and a narration transcript, enabling systematic evaluation of models' abilities to generate animated data video stories. We further propose a multi-agent framework that decomposes the task into planning, generation, and verification stages, mirroring key aspects of the human storytelling process. Experiments show that this multi-agent approach outperforms direct prompting baselines under both automatic and human evaluations, while revealing persistent challenges in coordinating animation, narration, and visual emphasis. We release DataReel at https://github.com/vis-nlp/DataReel.