Omni2Sound: Towards Unified Video-Text-to-Audio Generation

作者: Yusheng Dai, Zehua Chen, Yuxuan Jiang, Baolong Gao, Qiuhong Ke, Jun Zhu, Jianfei Cai

分类: cs.SD, cs.CV, cs.MM

发布日期: 2026-01-06

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Omni2Sound：提出统一的视频-文本-音频生成模型，解决多模态对齐和任务竞争问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频到音频生成 文本到音频生成 多模态学习 扩散模型 统一模型

📋 核心要点

现有V2A、T2A和VT2A模型缺乏统一性，且高质量对齐的多模态数据稀缺，导致模型性能受限。
Omni2Sound通过构建SoundAtlas数据集和设计多任务渐进式训练策略，实现了统一模型框架下的多模态音频生成。
实验表明，Omni2Sound在统一模型中实现了V2A、T2A和VT2A任务的SOTA性能，并具有良好的泛化能力。

📝 摘要（中文）

本文提出了一种统一的模型Omni2Sound，旨在整合视频到音频(V2A)、文本到音频(T2A)以及联合视频-文本到音频(VT2A)的生成。该研究面临两个主要挑战：一是缺乏高质量且A-V-T对齐的音频字幕数据，导致多模态条件间的语义冲突；二是跨任务和任务内的竞争，表现为V2A和T2A性能的权衡以及VT2A任务中的模态偏见。为了解决数据稀缺问题，作者构建了SoundAtlas数据集，包含47万个样本，其质量优于现有基准甚至人类专家。SoundAtlas通过结合视觉到语言压缩、初级-高级代理切换以及后验过滤等技术，生成语义丰富且时间细节详尽的字幕。此外，Omni2Sound采用扩散模型，并通过三阶段多任务渐进式训练策略，将跨任务竞争转化为联合优化，缓解VT2A任务中的模态偏见。最后，作者构建了VGGSound-Omni基准，用于统一评估，Omni2Sound在所有三个任务中均实现了SOTA性能。

🔬 方法详解

问题定义：现有的视频-文本-音频生成方法通常是针对特定任务设计的，缺乏一个统一的模型来处理V2A、T2A和VT2A任务。此外，高质量且多模态对齐的数据集非常稀缺，这导致模型在训练过程中容易出现语义冲突和模态偏见。现有方法在处理跨任务和任务内竞争时存在不足，导致V2A和T2A性能相互制约，VT2A任务中模型倾向于依赖单一模态的信息。

核心思路：Omni2Sound的核心思路是构建一个统一的扩散模型，通过多任务渐进式训练策略，将跨任务竞争转化为联合优化，并缓解VT2A任务中的模态偏见。通过构建大规模高质量的SoundAtlas数据集，为模型提供充足的训练数据，从而提升模型的生成质量和泛化能力。这种设计旨在实现一个能够灵活处理不同输入模态，并生成高质量音频的统一模型。

技术框架：Omni2Sound的整体框架包括数据准备阶段、模型构建阶段和训练阶段。在数据准备阶段，构建了SoundAtlas数据集，该数据集包含视频、文本和音频信息，并保证了多模态信息的对齐。在模型构建阶段，采用扩散模型作为生成框架，并设计了统一的输入接口，支持V2A、T2A和VT2A任务。在训练阶段，采用三阶段多任务渐进式训练策略，首先分别训练V2A和T2A模型，然后进行联合训练，最后对VT2A任务进行微调。

关键创新：Omni2Sound的关键创新在于以下几个方面：(1) 提出了SoundAtlas数据集，解决了高质量多模态数据稀缺的问题。(2) 设计了三阶段多任务渐进式训练策略，有效缓解了跨任务和任务内的竞争。(3) 构建了统一的扩散模型框架，支持灵活的输入模态，实现了V2A、T2A和VT2A任务的统一建模。与现有方法相比，Omni2Sound能够更好地利用多模态信息，生成更高质量的音频。

关键设计：SoundAtlas数据集的构建采用了Vision-to-Language Compression、Junior-Senior Agent Handoff和Post-hoc Filtering等技术，确保了数据的质量和对齐性。三阶段多任务渐进式训练策略包括：第一阶段，分别训练V2A和T2A模型；第二阶段，联合训练V2A和T2A模型，共享模型参数；第三阶段，对VT2A任务进行微调，缓解模态偏见。模型采用DiT作为backbone，损失函数包括扩散模型的损失函数和辅助损失函数，用于提升生成质量和对齐性。

🖼️ 关键图片

📊 实验亮点

Omni2Sound在VGGSound-Omni基准测试中取得了显著的成果，在V2A、T2A和VT2A三个任务上均达到了SOTA性能。SoundAtlas数据集在质量上超越了现有数据集，甚至优于人类专家。实验结果表明，Omni2Sound具有强大的泛化能力，能够在不同的数据集和任务上取得优异的表现。

🎯 应用场景

Omni2Sound具有广泛的应用前景，例如：智能视频编辑、游戏音效生成、虚拟现实/增强现实应用、以及辅助听觉障碍人士理解视频内容等。该研究能够提升多媒体内容的创作效率和用户体验，并为未来的多模态人工智能研究提供新的思路。

📄 摘要（原文）

Training a unified model integrating video-to-audio (V2A), text-to-audio (T2A), and joint video-text-to-audio (VT2A) generation offers significant application flexibility, yet faces two unexplored foundational challenges: (1) the scarcity of high-quality audio captions with tight A-V-T alignment, leading to severe semantic conflict between multimodal conditions, and (2) cross-task and intra-task competition, manifesting as an adverse V2A-T2A performance trade-off and modality bias in the VT2A task. First, to address data scarcity, we introduce SoundAtlas, a large-scale dataset (470k pairs) that significantly outperforms existing benchmarks and even human experts in quality. Powered by a novel agentic pipeline, it integrates Vision-to-Language Compression to mitigate visual bias of MLLMs, a Junior-Senior Agent Handoff for a 5 times cost reduction, and rigorous Post-hoc Filtering to ensure fidelity. Consequently, SoundAtlas delivers semantically rich and temporally detailed captions with tight V-A-T alignment. Second, we propose Omni2Sound, a unified VT2A diffusion model supporting flexible input modalities. To resolve the inherent cross-task and intra-task competition, we design a three-stage multi-task progressive training schedule that converts cross-task competition into joint optimization and mitigates modality bias in the VT2A task, maintaining both audio-visual alignment and off-screen audio generation faithfulness. Finally, we construct VGGSound-Omni, a comprehensive benchmark for unified evaluation, including challenging off-screen tracks. With a standard DiT backbone, Omni2Sound achieves unified SOTA performance across all three tasks within a single model, demonstrating strong generalization across benchmarks with heterogeneous input conditions. The project page is at https://swapforward.github.io/Omni2Sound.

Omni2Sound: Towards Unified Video-Text-to-Audio Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册