Scene Co-pilot: Procedural Text to Video Generation with Human in the Loop

📄 arXiv: 2411.18644v1 📥 PDF

作者: Zhaofang Qian, Abolfazl Sharifi, Tucker Carroll, Ser-Nam Lim

分类: cs.CV

发布日期: 2024-11-26

备注: Videos are available at our project page: https://abolfazl-sh.github.io/Scene_co-pilot_site/


💡 一句话要点

提出Scene Co-pilot框架,结合LLM与程序化3D场景生成,实现可控的文本到视频生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到视频生成 程序化3D场景 大型语言模型 人机交互 视频生成 3D场景生成 Blender 可控视频生成

📋 核心要点

  1. 现有视频生成方法存在时间一致性差和违反物理规律等问题,难以保证生成视频的真实性和连贯性。
  2. Scene Co-pilot框架结合LLM和程序化3D场景生成,通过精确控制场景实体来解决上述问题,实现可控的视频生成。
  3. 实验结果表明,该框架能够有效定制3D场景并生成高质量视频,为用户提供更灵活的创作工具。

📝 摘要(中文)

视频生成技术在质量上取得了显著进展,但仍存在时间一致性和违反物理规律等问题。利用3D场景可以通过精确控制场景实体从根本上解决这些问题。为了便于生成多样化的逼真场景,我们提出了Scene Co-pilot,这是一个结合大型语言模型(LLM)与程序化3D场景生成器的框架。具体来说,Scene Co-pilot包含Scene Codex、BlenderGPT和人机交互环节。Scene Codex旨在将文本用户输入转换为3D场景生成器可理解的命令。BlenderGPT为用户提供了一种直观且直接的方式来精确控制生成的3D场景和最终输出视频。此外,用户可以利用Blender UI接收即时视觉反馈。我们还整理了一个代码格式的对象程序化数据集,以进一步增强系统的能力。每个组件无缝协作,以支持用户生成所需的3D场景。大量实验证明了我们的框架在定制3D场景和视频生成方面的能力。

🔬 方法详解

问题定义:现有视频生成方法难以保证时间一致性和符合物理规律,导致生成视频存在伪影。用户难以精确控制视频内容,缺乏灵活性和可定制性。

核心思路:利用3D场景作为中间表示,通过程序化生成3D场景来精确控制场景中的实体和交互。结合大型语言模型(LLM)理解用户文本指令,并将其转化为3D场景生成器的控制命令。通过人机交互环节,允许用户实时调整和优化场景,最终生成高质量视频。

技术框架:Scene Co-pilot框架包含三个主要模块:Scene Codex、BlenderGPT和人机交互环节。Scene Codex负责将用户输入的文本指令转换为3D场景生成器可理解的命令。BlenderGPT提供用户友好的界面,允许用户直接控制3D场景和视频生成过程。人机交互环节允许用户利用Blender UI接收视觉反馈,并进行实时调整。

关键创新:该方法的核心创新在于将LLM与程序化3D场景生成相结合,实现文本到视频的生成。通过3D场景作为中间表示,可以更好地控制视频内容,并保证时间一致性和物理规律。此外,人机交互环节允许用户实时调整场景,提高了生成视频的可控性和定制性。

关键设计:Scene Codex使用LLM将文本指令解析为Blender可执行的Python代码。BlenderGPT提供用户友好的界面,允许用户通过文本或图形界面控制Blender。该框架还包含一个程序化对象数据集,用于生成各种3D场景。具体参数设置和损失函数等细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了Scene Co-pilot框架在定制3D场景和视频生成方面的能力。虽然论文中没有提供具体的性能数据和对比基线,但实验结果表明,该框架能够有效生成符合用户需求的3D场景和视频,并提供灵活的控制和定制选项。用户可以通过文本指令和人机交互环节,轻松调整场景和视频内容。

🎯 应用场景

该研究成果可应用于游戏开发、电影制作、广告设计等领域,为内容创作者提供更高效、可控的视频生成工具。通过文本指令即可生成逼真的3D场景和视频,降低了创作门槛,提高了创作效率。未来,该技术有望进一步发展,实现更复杂的场景和更逼真的视频生成。

📄 摘要(原文)

Video generation has achieved impressive quality, but it still suffers from artifacts such as temporal inconsistency and violation of physical laws. Leveraging 3D scenes can fundamentally resolve these issues by providing precise control over scene entities. To facilitate the easy generation of diverse photorealistic scenes, we propose Scene Copilot, a framework combining large language models (LLMs) with a procedural 3D scene generator. Specifically, Scene Copilot consists of Scene Codex, BlenderGPT, and Human in the loop. Scene Codex is designed to translate textual user input into commands understandable by the 3D scene generator. BlenderGPT provides users with an intuitive and direct way to precisely control the generated 3D scene and the final output video. Furthermore, users can utilize Blender UI to receive instant visual feedback. Additionally, we have curated a procedural dataset of objects in code format to further enhance our system's capabilities. Each component works seamlessly together to support users in generating desired 3D scenes. Extensive experiments demonstrate the capability of our framework in customizing 3D scenes and video generation.