UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation

作者: Lei Zhao, Linfeng Feng, Dongxu Ge, Rujin Chen, Fangqiu Yi, Chi Zhang, Xiao-Lei Zhang, Xuelong Li

分类: cs.MM, cs.AI, cs.CV, cs.SD, eess.AS

发布日期: 2025-02-06 (更新: 2025-07-07)

备注: Our demos are available at https://uniform-t2av.github.io/

💡 一句话要点

UniForm：用于音视频生成的统一多任务扩散Transformer

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频生成 扩散模型 Transformer 多任务学习 统一架构 跨模态生成

📋 核心要点

现有音视频生成方法依赖于独立模块，缺乏对统一生成架构的探索，且通常局限于单一任务和小数据集。
UniForm提出了一种统一的多任务扩散Transformer，在共享潜在空间中生成音频和视觉模态，捕捉模态间相关性。
UniForm通过任务特定噪声方案和任务令牌，仅用一组参数支持视频到音频、音频到视频和文本到音视频生成等多种任务。

📝 摘要（中文）

随着扩散模型的兴起，音视频生成领域迎来了变革。然而，现有方法大多依赖于针对每种模态的独立模块，对统一生成架构的探索有限。此外，许多方法仅限于单一任务和小规模数据集。为了克服这些限制，我们提出了UniForm，一个统一的多任务扩散Transformer，它在共享的潜在空间中生成音频和视觉模态。通过使用统一的去噪网络，UniForm捕捉声音和视觉之间固有的相关性。此外，我们提出了特定于任务的噪声方案和任务令牌，使模型能够通过一组参数支持多个任务，包括视频到音频、音频到视频和文本到音视频生成。此外，通过利用大型语言模型和大规模文本-音频-视频组合数据集，UniForm实现了比以往方法更大的生成多样性。实验表明，UniForm在三个生成任务中取得了接近最先进的单任务模型的性能，生成的不仅与真实世界的数据分布高度一致，而且能够实现更多样化和细粒度的生成。

🔬 方法详解

问题定义：现有音视频生成方法通常为每种模态设计独立的生成模块，忽略了音视频之间的内在关联，导致生成效果受限。此外，许多模型只能处理单一的生成任务，泛化能力不足，难以适应复杂场景。现有方法还依赖于小规模数据集，限制了生成内容的多样性和真实性。

核心思路：UniForm的核心思路是构建一个统一的生成框架，在共享的潜在空间中同时处理音频和视频模态。通过统一的去噪网络学习音视频之间的关联，并利用任务特定的噪声方案和任务令牌，实现多任务学习。此外，利用大规模数据集和大型语言模型，提升生成内容的多样性和真实性。

技术框架：UniForm的整体架构基于扩散Transformer。首先，将音频和视频数据编码到共享的潜在空间中。然后，使用统一的去噪网络逐步去除噪声，生成目标模态。模型包含编码器、扩散模型和解码器三个主要模块。编码器将输入数据映射到潜在空间，扩散模型负责生成过程，解码器将潜在表示解码为最终的音频或视频。

关键创新：UniForm的关键创新在于其统一的多任务生成框架。与以往针对每种模态或任务设计独立模型的方法不同，UniForm使用单一模型处理多种生成任务，显著提升了模型的泛化能力和效率。此外，任务特定的噪声方案和任务令牌的设计，使得模型能够更好地适应不同任务的需求。

关键设计：UniForm使用Transformer作为其核心架构，并采用扩散模型进行生成。任务特定噪声方案通过调整不同任务的噪声水平，优化生成效果。任务令牌用于区分不同的生成任务，指导模型生成特定模态的内容。损失函数包括扩散模型的标准损失函数以及用于衡量生成内容质量的感知损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UniForm在视频到音频、音频到视频和文本到音视频生成三个任务上，取得了接近最先进的单任务模型的性能。与现有方法相比，UniForm生成的音视频内容不仅与真实世界的数据分布高度一致，而且具有更高的多样性和细粒度。例如，在文本到音视频生成任务中，UniForm能够根据文本描述生成具有丰富细节和情感表达的音视频内容。

🎯 应用场景

UniForm可应用于多种音视频生成场景，例如电影制作、游戏开发、虚拟现实等。它可以根据文本描述生成相应的音视频内容，也可以将视频转换为音频，或将音频转换为视频。该研究的实际价值在于降低了音视频内容的生成成本，提升了生成效率，并为用户提供了更多样化的创作工具。未来，UniForm有望成为音视频内容创作的重要基础设施。

📄 摘要（原文）

With the rise of diffusion models, audio-video generation has been revolutionized. However, most existing methods rely on separate modules for each modality, with limited exploration of unified generative architectures. In addition, many are confined to a single task and small-scale datasets. To overcome these limitations, we introduce UniForm, a unified multi-task diffusion transformer that generates both audio and visual modalities in a shared latent space. By using a unified denoising network, UniForm captures the inherent correlations between sound and vision. Additionally, we propose task-specific noise schemes and task tokens, enabling the model to support multiple tasks with a single set of parameters, including video-to-audio, audio-to-video and text-to-audio-video generation. Furthermore, by leveraging large language models and a large-scale text-audio-video combined dataset, UniForm achieves greater generative diversity than prior approaches. Experiments show that UniForm achieves performance close to the state-of-the-art single-task models across three generation tasks, with generated content that is not only highly aligned with real-world data distributions but also enables more diverse and fine-grained generation.

UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理