Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

📄 arXiv: 2408.09787v1 📥 PDF

作者: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang

分类: cs.CL, cs.CV, cs.MM

发布日期: 2024-08-19

备注: Accepted by SIGGRAPH Asia 2024, Project and Codes: https://github.com/HITsz-TMG/Anim-Director


💡 一句话要点

Anim-Director:基于大型多模态模型的可控动画视频生成Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动画生成 大型多模态模型 自主Agent 视觉语言提示 文本到视频 可控生成 导演脚本

📋 核心要点

  1. 现有动画生成方法依赖人工标注数据,流程复杂,成本高昂,且生成动画信息量少,上下文连贯性差。
  2. Anim-Director利用大型多模态模型(LMM)作为核心,构建自主动画制作Agent,从文本指令生成动画视频。
  3. 该Agent通过LMM与生成工具交互,自动生成提示、评估视觉质量并优化输出,无需人工干预。

📝 摘要(中文)

传统动画生成方法依赖于使用人工标注数据训练生成模型,这需要复杂的多阶段流程,耗费大量人力并产生高昂的训练成本。由于提示计划有限,这些方法通常产生简短、信息贫乏且上下文不连贯的动画。为了克服这些限制并自动化动画制作过程,我们率先引入大型多模态模型(LMM)作为核心处理器,构建了一个名为Anim-Director的自主动画制作Agent。该Agent主要利用LMM和生成式AI工具的先进理解和推理能力,从简洁的叙述或简单的指令中创建动画视频。具体来说,它分三个主要阶段运行:首先,Anim-Director从用户输入生成连贯的故事线,然后生成详细的导演脚本,其中包括角色配置和室内/室外描述,以及包含出现角色、室内或室外和场景事件的上下文连贯的场景描述。其次,我们使用带有图像生成工具的LMM来生成设置和场景的视觉图像。这些图像旨在通过使用视觉语言提示方法来保持不同场景之间的视觉一致性,该方法结合了场景描述以及出现的角色和设置的图像。第三,场景图像作为生成动画视频的基础,LMM生成提示来指导此过程。整个过程是显着自主的,无需人工干预,因为LMM与生成工具无缝交互以生成提示,评估视觉质量并选择最佳提示以优化最终输出。

🔬 方法详解

问题定义:现有动画生成方法依赖于大量人工标注数据,需要复杂的多阶段流程,成本高昂。同时,由于提示计划的限制,生成的动画视频通常信息量不足,上下文连贯性较差,难以满足用户需求。

核心思路:论文的核心思路是利用大型多模态模型(LMM)强大的理解和推理能力,构建一个自主的动画制作Agent。该Agent能够理解用户输入的文本指令,并自动生成动画视频,从而降低人工成本,提高生成效率和质量。

技术框架:Anim-Director主要包含三个阶段: 1. 故事线和脚本生成:LMM根据用户输入生成连贯的故事线,并生成详细的导演脚本,包括角色设定、场景描述和事件描述。 2. 图像生成:LMM结合图像生成工具,根据脚本生成场景图像,并通过视觉语言提示方法保持场景之间的视觉一致性。 3. 动画视频生成:LMM根据场景图像生成动画视频,并自动评估视觉质量,选择最佳结果。

关键创新:该方法的核心创新在于将大型多模态模型(LMM)引入动画生成领域,并构建了一个完全自主的动画制作Agent。与传统方法相比,该方法无需人工标注数据,能够自动生成高质量、上下文连贯的动画视频。

关键设计: 1. 视觉语言提示:使用视觉语言提示方法,结合场景描述和角色/场景图像,以保持不同场景之间的视觉一致性。 2. 自动评估和优化:LMM自动评估生成图像和视频的质量,并选择最佳结果进行优化,无需人工干预。 3. 多阶段生成流程:将动画生成过程分解为故事线/脚本生成、图像生成和视频生成三个阶段,每个阶段都由LMM驱动,实现端到端的自动化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的Anim-Director能够根据简单的文本指令自动生成动画视频,无需人工干预。通过利用大型多模态模型的理解和推理能力,生成的动画视频具有较高的质量和上下文连贯性。虽然论文中没有给出具体的量化指标,但展示的生成结果表明该方法具有良好的效果。

🎯 应用场景

Anim-Director具有广泛的应用前景,可用于动画制作、教育娱乐、广告营销等领域。它可以降低动画制作的门槛,提高制作效率,并为用户提供个性化的动画内容。未来,该技术有望应用于游戏开发、虚拟现实等领域,创造更加丰富多彩的数字体验。

📄 摘要(原文)

Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director's script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.