FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

作者: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu

分类: cs.CV

发布日期: 2025-03-25

备注: Project Page: https://fulldit.github.io/

💡 一句话要点

FullDiT：基于全注意力机制的多任务视频生成基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频生成 多任务学习 全注意力机制 Transformer 条件控制

📋 核心要点

现有视频生成模型缺乏对视频内容进行细粒度控制的能力，并且在集成多个控制条件时存在冲突和冗余问题。
FullDiT通过统一的全注意力机制，将多任务条件融合到统一的序列表示中，从而实现多条件控制和减少参数开销。
实验结果表明，FullDiT在多任务视频生成方面取得了最先进的性能，验证了全注意力机制的有效性。

📝 摘要（中文）

当前视频生成基础模型主要集中于文本到视频的任务，对视频内容进行细粒度控制的能力有限。虽然基于适配器的方法（如ControlNet）可以通过最小的微调实现额外的控制，但在集成多个条件时会遇到挑战，包括：独立训练的适配器之间的分支冲突、导致计算成本增加的参数冗余，以及相比完全微调的次优性能。为了解决这些挑战，我们提出了FullDiT，一个统一的视频生成基础模型，通过统一的全注意力机制无缝集成多个条件。通过将多任务条件融合到统一的序列表示中，并利用全自注意力机制的长上下文学习能力来捕获条件动态，FullDiT减少了参数开销，避免了条件冲突，并显示出可扩展性和涌现能力。我们进一步推出了用于多任务视频生成评估的FullBench。实验表明，FullDiT取得了最先进的结果，突出了全注意力机制在复杂多任务视频生成中的有效性。

🔬 方法详解

问题定义：论文旨在解决现有视频生成基础模型在多任务条件下的控制问题。现有方法，如基于适配器的方法（例如ControlNet），在集成多个条件时会遇到分支冲突、参数冗余和性能次优等问题。这些问题限制了视频生成模型在复杂场景下的应用。

核心思路：论文的核心思路是利用全注意力机制，将多个任务条件融合到一个统一的序列表示中。通过全自注意力机制的长上下文学习能力，模型可以更好地捕获条件之间的动态关系，从而避免条件冲突，提高生成质量。

技术框架：FullDiT的整体框架包括以下几个主要模块：1) 多任务条件编码器：将不同的条件（例如文本、图像、语义分割图）编码成统一的序列表示。2) 全注意力Transformer：利用全自注意力机制对序列表示进行建模，捕获条件之间的依赖关系。3) 视频解码器：将Transformer的输出解码成最终的视频帧序列。FullBench被用于多任务视频生成评估。

关键创新：FullDiT的关键创新在于使用全注意力机制来统一处理多个条件。与传统的基于适配器的方法相比，FullDiT避免了分支冲突和参数冗余，并且能够更好地利用条件之间的信息。此外，FullDiT还提出了FullBench，一个用于多任务视频生成评估的基准。

关键设计：FullDiT的关键设计包括：1) 使用Transformer作为核心架构，利用其强大的序列建模能力。2) 设计了统一的条件编码器，将不同类型的条件映射到相同的特征空间。3) 采用了全自注意力机制，允许模型在所有条件之间进行交互。4) 损失函数的设计旨在平衡不同任务之间的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FullDiT在多任务视频生成方面取得了state-of-the-art的结果。具体来说，FullDiT在FullBench基准上显著优于现有的方法，例如ControlNet等。这表明FullDiT能够更好地处理多个条件，生成更高质量的视频。

🎯 应用场景

FullDiT具有广泛的应用前景，包括视频编辑、游戏开发、电影制作、虚拟现实等领域。它可以用于生成具有特定风格、内容和结构的视频，从而为用户提供更加灵活和个性化的视频创作体验。此外，FullDiT还可以用于数据增强，提高其他视频分析任务的性能。

📄 摘要（原文）

Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理