Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation
作者: Liu He, Yizhi Song, Hejun Huang, Pinxin Liu, Yunlong Tang, Daniel Aliaga, Xin Zhou
分类: cs.CV, cs.GR, cs.MM
发布日期: 2024-08-19 (更新: 2025-05-05)
备注: Accepted by CVPR 2025 AI4CC Workshop
💡 一句话要点
Kubrick:基于多模态Agent协作的合成视频生成框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到视频生成 多Agent协作 视觉大语言模型 Blender脚本 合成视频
📋 核心要点
- 现有的文本到视频生成模型在物理运动、光照、相机运动和时间一致性方面存在不足。
- Kubrick框架利用多个VLM Agent协作,自动生成Blender脚本,从而渲染出高质量的合成视频。
- 实验结果表明,该框架生成的视频在多个指标上优于商业模型,并在用户研究中表现出更好的质量和一致性。
📝 摘要(中文)
本文提出了一种基于视觉大语言模型(VLM)Agent协作的自动合成视频生成流程。该流程利用多个VLM Agent协同工作,根据给定的文本描述生成视频。Agent们合作创建Blender脚本,从而渲染出符合描述的视频。导演Agent利用Blender电影制作知识将文本描述分解为子过程;程序员Agent基于函数组合和API调用生成Python Blender脚本;评论员Agent则利用视频审查知识、角色运动坐标和中间截图,为程序员Agent提供反馈。程序员Agent迭代改进脚本,以获得最佳视频效果。实验表明,生成的视频在视频质量和指令遵循性能的五个指标上优于商业视频生成模型,并且在质量、一致性和合理性的用户研究中优于其他方法。
🔬 方法详解
问题定义:现有基于扩散或自回归模型的文本到视频生成方法,虽然具有一定的通用性,但在物理运动的合理性、光照效果、相机运动以及时间一致性等方面表现不佳。电影行业依赖人工编辑的CGI,虽然质量高,但需要电影制作人和3D渲染专家之间的紧密合作,成本高昂。因此,需要一种能够自动生成高质量、物理上合理的合成视频的方法。
核心思路:本文的核心思路是利用多个VLM Agent模拟电影制作流程中的不同角色(导演、程序员、评论员),通过Agent之间的协作,将文本描述转化为可执行的Blender脚本,从而自动生成高质量的合成视频。这种方法借鉴了电影制作中人类协作的模式,将复杂的视频生成任务分解为多个Agent可以独立完成的子任务。
技术框架:Kubrick框架包含以下几个主要模块:1) 导演Agent:负责将文本描述分解为一系列子过程,例如场景设置、角色动画、相机运动等。导演Agent具备Blender电影制作知识。2) 程序员Agent:根据导演Agent分解的子过程,生成相应的Python Blender脚本。程序员Agent通过函数组合和API调用来实现各种视频效果。3) 评论员Agent:负责审查程序员Agent生成的脚本,并提供反馈。评论员Agent具备视频审查知识、角色运动坐标和中间截图分析能力。4) 迭代优化:程序员Agent根据评论员Agent的反馈,迭代改进脚本,直到达到满意的视频效果。
关键创新:该方法最重要的创新在于引入了多Agent协作的模式,将复杂的视频生成任务分解为多个Agent可以独立完成的子任务,从而降低了任务的难度,提高了生成视频的质量。此外,该方法还利用了VLM Agent的知识和推理能力,使其能够理解文本描述,并将其转化为可执行的Blender脚本。
关键设计:导演Agent使用prompt工程来指导其分解文本描述,程序员Agent使用函数组合和API调用来生成Blender脚本,评论员Agent使用预训练的视频质量评估模型和人工标注的数据来提供反馈。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Kubrick框架生成的视频在视频质量和指令遵循性能的五个指标上优于商业视频生成模型。此外,用户研究表明,Kubrick框架在质量、一致性和合理性方面优于其他方法。具体的性能提升数据和对比基线在论文中有所提及,但未在此处详细列出。
🎯 应用场景
该研究成果可应用于电影制作、游戏开发、广告设计、教育培训等领域。它可以降低合成视频的制作成本,提高制作效率,并为用户提供更加个性化的视频内容。未来,该技术有望进一步发展,实现更加逼真、自然的合成视频生成,并应用于虚拟现实、增强现实等新兴领域。
📄 摘要(原文)
Text-to-video generation has been dominated by diffusion-based or autoregressive models. These novel models provide plausible versatility, but are criticized for improper physical motion, shading and illumination, camera motion, and temporal consistency. The film industry relies on manually-edited Computer-Generated Imagery (CGI) using 3D modeling software. Human-directed 3D synthetic videos address these shortcomings, but require tight collaboration between movie makers and 3D rendering experts. We introduce an automatic synthetic video generation pipeline based on Vision Large Language Model (VLM) agent collaborations. Given a language description of a video, multiple VLM agents direct various processes of the generation pipeline. They cooperate to create Blender scripts which render a video following the given description. Augmented with Blender-based movie making knowledge, the Director agent decomposes the text-based video description into sub-processes. For each sub-process, the Programmer agent produces Python-based Blender scripts based on function composing and API calling. The Reviewer agent, with knowledge of video reviewing, character motion coordinates, and intermediate screenshots, provides feedback to the Programmer agent. The Programmer agent iteratively improves scripts to yield the best video outcome. Our generated videos show better quality than commercial video generation models in five metrics on video quality and instruction-following performance. Our framework outperforms other approaches in a user study on quality, consistency, and rationality.