FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

📄 arXiv: 2503.19907v1 📥 PDF

作者: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu

分类: cs.CV

发布日期: 2025-03-25

备注: Project Page: https://fulldit.github.io/


💡 一句话要点

FullDiT:基于全注意力机制的多任务视频生成基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 多任务学习 全注意力机制 Transformer 条件控制

📋 核心要点

  1. 现有视频生成模型缺乏对视频内容进行细粒度控制的能力,并且在集成多个控制条件时存在冲突和冗余问题。
  2. FullDiT通过统一的全注意力机制,将多任务条件融合到统一的序列表示中,从而实现多条件控制和减少参数开销。
  3. 实验结果表明,FullDiT在多任务视频生成方面取得了最先进的性能,验证了全注意力机制的有效性。

📝 摘要(中文)

当前视频生成基础模型主要集中于文本到视频的任务,对视频内容进行细粒度控制的能力有限。虽然基于适配器的方法(如ControlNet)可以通过最小的微调实现额外的控制,但在集成多个条件时会遇到挑战,包括:独立训练的适配器之间的分支冲突、导致计算成本增加的参数冗余,以及相比完全微调的次优性能。为了解决这些挑战,我们提出了FullDiT,一个统一的视频生成基础模型,通过统一的全注意力机制无缝集成多个条件。通过将多任务条件融合到统一的序列表示中,并利用全自注意力机制的长上下文学习能力来捕获条件动态,FullDiT减少了参数开销,避免了条件冲突,并显示出可扩展性和涌现能力。我们进一步推出了用于多任务视频生成评估的FullBench。实验表明,FullDiT取得了最先进的结果,突出了全注意力机制在复杂多任务视频生成中的有效性。

🔬 方法详解

问题定义:论文旨在解决现有视频生成基础模型在多任务条件下的控制问题。现有方法,如基于适配器的方法(例如ControlNet),在集成多个条件时会遇到分支冲突、参数冗余和性能次优等问题。这些问题限制了视频生成模型在复杂场景下的应用。

核心思路:论文的核心思路是利用全注意力机制,将多个任务条件融合到一个统一的序列表示中。通过全自注意力机制的长上下文学习能力,模型可以更好地捕获条件之间的动态关系,从而避免条件冲突,提高生成质量。

技术框架:FullDiT的整体框架包括以下几个主要模块:1) 多任务条件编码器:将不同的条件(例如文本、图像、语义分割图)编码成统一的序列表示。2) 全注意力Transformer:利用全自注意力机制对序列表示进行建模,捕获条件之间的依赖关系。3) 视频解码器:将Transformer的输出解码成最终的视频帧序列。FullBench被用于多任务视频生成评估。

关键创新:FullDiT的关键创新在于使用全注意力机制来统一处理多个条件。与传统的基于适配器的方法相比,FullDiT避免了分支冲突和参数冗余,并且能够更好地利用条件之间的信息。此外,FullDiT还提出了FullBench,一个用于多任务视频生成评估的基准。

关键设计:FullDiT的关键设计包括:1) 使用Transformer作为核心架构,利用其强大的序列建模能力。2) 设计了统一的条件编码器,将不同类型的条件映射到相同的特征空间。3) 采用了全自注意力机制,允许模型在所有条件之间进行交互。4) 损失函数的设计旨在平衡不同任务之间的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FullDiT在多任务视频生成方面取得了state-of-the-art的结果。具体来说,FullDiT在FullBench基准上显著优于现有的方法,例如ControlNet等。这表明FullDiT能够更好地处理多个条件,生成更高质量的视频。

🎯 应用场景

FullDiT具有广泛的应用前景,包括视频编辑、游戏开发、电影制作、虚拟现实等领域。它可以用于生成具有特定风格、内容和结构的视频,从而为用户提供更加灵活和个性化的视频创作体验。此外,FullDiT还可以用于数据增强,提高其他视频分析任务的性能。

📄 摘要(原文)

Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.