MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio

作者: Xuenan Xu, Jiahao Mei, Chenliang Li, Yuning Wu, Ming Yan, Shaopeng Lai, Ji Zhang, Mengyue Wu

分类: cs.CL

发布日期: 2025-03-07

💡 一句话要点

MM-StoryAgent：提出一种多智能体框架，用于生成沉浸式叙事故事书视频

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 故事生成 视频生成 多模态融合 大型语言模型

📋 核心要点

现有AI故事书在故事吸引力、表达力方面存在不足，缺乏开源评估基准和框架。
MM-StoryAgent采用多智能体框架，利用LLM和多种模态的生成模型与API，生成更具表现力的故事视频。
实验结果表明，MM-StoryAgent在文本故事质量和模态对齐方面表现出色，验证了其有效性。

📝 摘要（中文）

大型语言模型（LLMs）和人工智能生成内容（AIGC）的快速发展加速了AI原生应用，例如基于AI的故事书，它可以自动为儿童生成引人入胜的故事。然而，在提高故事吸引力、丰富故事表达力以及开发开源评估基准和框架方面仍然存在挑战。因此，我们提出并开源了MM-StoryAgent，它可以创建具有精致情节、角色一致的图像和多通道音频的沉浸式叙事视频故事书。MM-StoryAgent设计了一个多智能体框架，该框架利用LLM和各种跨模态的专家工具（生成模型和API）来制作富有表现力的故事视频。该框架通过多阶段写作流程增强了故事的吸引力。此外，它通过将音效与视觉、音乐和叙事资产相结合，改善了沉浸式故事体验。MM-StoryAgent提供了一个灵活的开源平台，可用于进一步开发，并且可以替换生成模块。关于文本故事质量以及模态之间对齐的客观和主观评估验证了我们提出的MM-StoryAgent系统的有效性。演示和源代码均已提供。

🔬 方法详解

问题定义：现有AI故事书生成方法难以保证故事的吸引力与表达力，并且缺乏统一的评估标准和开源框架，限制了该领域的发展。具体来说，如何生成情节更吸引人、角色形象一致、且包含多通道音频（例如音效）的故事视频是一个挑战。

核心思路：论文的核心思路是利用多智能体框架，每个智能体负责不同的模态（文本、图像、音频）生成任务，并利用大型语言模型（LLMs）作为协调者，指导各个智能体协同工作，从而生成高质量的故事视频。这种设计旨在充分利用各种模态的生成能力，并保证故事内容的一致性和连贯性。

技术框架：MM-StoryAgent的整体框架是一个多智能体系统，包含以下主要模块：1) 故事编写智能体：负责生成故事文本，采用多阶段写作流程以提高故事吸引力。2) 图像生成智能体：根据故事文本生成角色一致的图像。3) 音频生成智能体：生成与故事内容相匹配的音乐和音效。4) LLM协调器：负责协调各个智能体的工作，确保故事内容在不同模态之间的一致性。整个流程是迭代式的，各个智能体之间可以相互反馈，不断优化生成结果。

关键创新：该论文的关键创新在于提出了一个多智能体框架，将故事生成任务分解为多个子任务，并由不同的智能体负责。这种模块化的设计使得系统具有很强的灵活性和可扩展性，可以方便地替换或添加新的智能体。此外，利用LLM作为协调器，可以有效地保证故事内容在不同模态之间的一致性。

关键设计：论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节。但是，强调了多阶段写作流程，以及音效与视觉、音乐和叙事资产的集成，这些都是提高故事吸引力和沉浸式体验的关键设计。

🖼️ 关键图片

📊 实验亮点

论文通过客观和主观评估验证了MM-StoryAgent的有效性。实验结果表明，该系统生成的文本故事质量较高，并且不同模态之间具有良好的对齐性。由于缺乏具体的性能数据和对比基线，无法进行更详细的量化分析，但整体效果是积极的。

🎯 应用场景

MM-StoryAgent可应用于儿童教育、娱乐等领域，为孩子们提供更具吸引力和互动性的故事体验。该研究的开源框架和评估基准可以促进AI故事书生成技术的发展，并为相关研究提供参考。未来，可以进一步探索个性化故事生成、增强用户交互等方向。

📄 摘要（原文）

The rapid advancement of large language models (LLMs) and artificial intelligence-generated content (AIGC) has accelerated AI-native applications, such as AI-based storybooks that automate engaging story production for children. However, challenges remain in improving story attractiveness, enriching storytelling expressiveness, and developing open-source evaluation benchmarks and frameworks. Therefore, we propose and opensource MM-StoryAgent, which creates immersive narrated video storybooks with refined plots, role-consistent images, and multi-channel audio. MM-StoryAgent designs a multi-agent framework that employs LLMs and diverse expert tools (generative models and APIs) across several modalities to produce expressive storytelling videos. The framework enhances story attractiveness through a multi-stage writing pipeline. In addition, it improves the immersive storytelling experience by integrating sound effects with visual, music and narrative assets. MM-StoryAgent offers a flexible, open-source platform for further development, where generative modules can be substituted. Both objective and subjective evaluation regarding textual story quality and alignment between modalities validate the effectiveness of our proposed MM-StoryAgent system. The demo and source code are available.

MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理