From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent

作者: Samuel S. Sohn, Danrui Li, Sen Zhang, Che-Jui Chang, Mubbasir Kapadia

分类: cs.CL, cs.AI, cs.GR

发布日期: 2024-06-15 (更新: 2024-06-21)

备注: 16 pages, 13 figures

💡 一句话要点

StoryAgent框架：利用LLM将单行提示转化为沉浸式多模态数字故事

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数字故事生成 大型语言模型 多模态内容创作 自动化叙事 交互式场景 内容生成 LLM Agent

📋 核心要点

数字故事制作面临手动干预多、场景编排难、叙事一致性差等挑战，限制了其可扩展性和灵活性。
StoryAgent框架采用自上而下的故事草拟和自下而上的资产生成策略，利用LLM和生成工具实现自动化故事叙述。
实验结果表明，StoryAgent无需参考视频即可生成连贯的多模态数字故事，显著提升了内容创作效率。

📝 摘要（中文）

数字故事叙述在娱乐、教育和营销领域至关重要，但在生产的可扩展性和灵活性方面面临挑战。本文介绍的StoryAgent框架利用大型语言模型和生成工具来自动化和改进数字故事叙述。通过采用自上而下的故事草拟和自下而上的资产生成方法，StoryAgent解决了诸如手动干预、交互式场景编排和叙事一致性等关键问题。该框架能够高效地生成跨多种模态的交互式和一致的叙事，从而普及内容创作并增强用户参与度。实验结果表明，该框架能够在没有参考视频的情况下生成连贯的数字故事，标志着自动化数字故事叙述的重大进步。

🔬 方法详解

问题定义：论文旨在解决数字故事生成过程中手动干预过多、场景交互性不足以及叙事一致性难以保证的问题。现有方法通常需要大量人工设计和调整，难以实现高效且灵活的多模态内容创作。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大生成和推理能力，结合自上而下的故事草拟和自下而上的资产生成策略，实现自动化、交互式和一致的数字故事叙述。通过LLM驱动的智能体（Agent）来协调故事创作的各个环节，降低人工干预，提高创作效率。

技术框架：StoryAgent框架包含以下主要模块：1) 故事草拟模块：利用LLM根据用户提供的单行提示生成故事大纲和剧本。2) 资产生成模块：根据剧本描述，利用文本到图像、文本到视频等生成模型生成场景、角色和动画等视觉资产。3) 场景编排模块：将生成的视觉资产与剧本内容进行整合，创建交互式场景。4) 叙事一致性维护模块：利用LLM对故事发展进行监控，确保叙事逻辑的连贯性和一致性。

关键创新：该论文的关键创新在于将LLM作为核心驱动力，构建了一个完整的自动化数字故事生成框架。与传统方法相比，StoryAgent能够显著减少人工干预，并生成具有交互性和叙事一致性的多模态数字故事。无需参考视频即可生成连贯故事是另一重要突破。

关键设计：具体的技术细节包括：LLM的选择（具体型号未知），用于生成图像和视频的生成模型的选择（具体型号未知），以及如何设计提示工程（prompt engineering）以引导LLM生成高质量的故事内容和视觉资产。此外，如何定义和衡量叙事一致性，以及如何利用LLM进行一致性维护也是关键设计环节，具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

StoryAgent框架能够在没有参考视频的情况下，仅通过单行提示即可生成连贯的多模态数字故事，展示了其强大的自动化内容创作能力。虽然论文中没有提供具体的性能指标，但实验结果表明，该框架能够显著减少人工干预，并生成具有交互性和叙事一致性的数字故事，相较于传统方法具有显著优势。

🎯 应用场景

StoryAgent框架具有广泛的应用前景，可用于教育、娱乐、营销等领域。例如，可以用于快速生成个性化的儿童故事、制作引人入胜的广告宣传片，以及创建沉浸式的虚拟现实体验。该框架有望降低数字内容创作的门槛，赋能更多人参与到数字故事的创作中来，并推动数字内容产业的创新发展。

📄 摘要（原文）

Digital storytelling, essential in entertainment, education, and marketing, faces challenges in production scalability and flexibility. The StoryAgent framework, introduced in this paper, utilizes Large Language Models and generative tools to automate and refine digital storytelling. Employing a top-down story drafting and bottom-up asset generation approach, StoryAgent tackles key issues such as manual intervention, interactive scene orchestration, and narrative consistency. This framework enables efficient production of interactive and consistent narratives across multiple modalities, democratizing content creation and enhancing engagement. Our results demonstrate the framework's capability to produce coherent digital stories without reference videos, marking a significant advancement in automated digital storytelling.

From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理