Omni2Sound: Towards Unified Video-Text-to-Audio Generation
作者: Yusheng Dai, Zehua Chen, Yuxuan Jiang, Baolong Gao, Qiuhong Ke, Jun Zhu, Jianfei Cai
分类: cs.SD, cs.CV, cs.MM
发布日期: 2026-01-06
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Omni2Sound:提出统一的视频-文本-音频生成模型,解决多模态对齐和任务竞争问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频到音频生成 文本到音频生成 多模态学习 扩散模型 统一模型
📋 核心要点
- 现有V2A、T2A和VT2A模型缺乏统一性,且高质量对齐的多模态数据稀缺,导致模型性能受限。
- Omni2Sound通过构建SoundAtlas数据集和设计多任务渐进式训练策略,实现了统一模型框架下的多模态音频生成。
- 实验表明,Omni2Sound在统一模型中实现了V2A、T2A和VT2A任务的SOTA性能,并具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种统一的模型Omni2Sound,旨在整合视频到音频(V2A)、文本到音频(T2A)以及联合视频-文本到音频(VT2A)的生成。该研究面临两个主要挑战:一是缺乏高质量且A-V-T对齐的音频字幕数据,导致多模态条件间的语义冲突;二是跨任务和任务内的竞争,表现为V2A和T2A性能的权衡以及VT2A任务中的模态偏见。为了解决数据稀缺问题,作者构建了SoundAtlas数据集,包含47万个样本,其质量优于现有基准甚至人类专家。SoundAtlas通过结合视觉到语言压缩、初级-高级代理切换以及后验过滤等技术,生成语义丰富且时间细节详尽的字幕。此外,Omni2Sound采用扩散模型,并通过三阶段多任务渐进式训练策略,将跨任务竞争转化为联合优化,缓解VT2A任务中的模态偏见。最后,作者构建了VGGSound-Omni基准,用于统一评估,Omni2Sound在所有三个任务中均实现了SOTA性能。
🔬 方法详解
问题定义:现有的视频-文本-音频生成方法通常是针对特定任务设计的,缺乏一个统一的模型来处理V2A、T2A和VT2A任务。此外,高质量且多模态对齐的数据集非常稀缺,这导致模型在训练过程中容易出现语义冲突和模态偏见。现有方法在处理跨任务和任务内竞争时存在不足,导致V2A和T2A性能相互制约,VT2A任务中模型倾向于依赖单一模态的信息。
核心思路:Omni2Sound的核心思路是构建一个统一的扩散模型,通过多任务渐进式训练策略,将跨任务竞争转化为联合优化,并缓解VT2A任务中的模态偏见。通过构建大规模高质量的SoundAtlas数据集,为模型提供充足的训练数据,从而提升模型的生成质量和泛化能力。这种设计旨在实现一个能够灵活处理不同输入模态,并生成高质量音频的统一模型。
技术框架:Omni2Sound的整体框架包括数据准备阶段、模型构建阶段和训练阶段。在数据准备阶段,构建了SoundAtlas数据集,该数据集包含视频、文本和音频信息,并保证了多模态信息的对齐。在模型构建阶段,采用扩散模型作为生成框架,并设计了统一的输入接口,支持V2A、T2A和VT2A任务。在训练阶段,采用三阶段多任务渐进式训练策略,首先分别训练V2A和T2A模型,然后进行联合训练,最后对VT2A任务进行微调。
关键创新:Omni2Sound的关键创新在于以下几个方面:(1) 提出了SoundAtlas数据集,解决了高质量多模态数据稀缺的问题。(2) 设计了三阶段多任务渐进式训练策略,有效缓解了跨任务和任务内的竞争。(3) 构建了统一的扩散模型框架,支持灵活的输入模态,实现了V2A、T2A和VT2A任务的统一建模。与现有方法相比,Omni2Sound能够更好地利用多模态信息,生成更高质量的音频。
关键设计:SoundAtlas数据集的构建采用了Vision-to-Language Compression、Junior-Senior Agent Handoff和Post-hoc Filtering等技术,确保了数据的质量和对齐性。三阶段多任务渐进式训练策略包括:第一阶段,分别训练V2A和T2A模型;第二阶段,联合训练V2A和T2A模型,共享模型参数;第三阶段,对VT2A任务进行微调,缓解模态偏见。模型采用DiT作为backbone,损失函数包括扩散模型的损失函数和辅助损失函数,用于提升生成质量和对齐性。
🖼️ 关键图片
📊 实验亮点
Omni2Sound在VGGSound-Omni基准测试中取得了显著的成果,在V2A、T2A和VT2A三个任务上均达到了SOTA性能。SoundAtlas数据集在质量上超越了现有数据集,甚至优于人类专家。实验结果表明,Omni2Sound具有强大的泛化能力,能够在不同的数据集和任务上取得优异的表现。
🎯 应用场景
Omni2Sound具有广泛的应用前景,例如:智能视频编辑、游戏音效生成、虚拟现实/增强现实应用、以及辅助听觉障碍人士理解视频内容等。该研究能够提升多媒体内容的创作效率和用户体验,并为未来的多模态人工智能研究提供新的思路。
📄 摘要(原文)
Training a unified model integrating video-to-audio (V2A), text-to-audio (T2A), and joint video-text-to-audio (VT2A) generation offers significant application flexibility, yet faces two unexplored foundational challenges: (1) the scarcity of high-quality audio captions with tight A-V-T alignment, leading to severe semantic conflict between multimodal conditions, and (2) cross-task and intra-task competition, manifesting as an adverse V2A-T2A performance trade-off and modality bias in the VT2A task. First, to address data scarcity, we introduce SoundAtlas, a large-scale dataset (470k pairs) that significantly outperforms existing benchmarks and even human experts in quality. Powered by a novel agentic pipeline, it integrates Vision-to-Language Compression to mitigate visual bias of MLLMs, a Junior-Senior Agent Handoff for a 5 times cost reduction, and rigorous Post-hoc Filtering to ensure fidelity. Consequently, SoundAtlas delivers semantically rich and temporally detailed captions with tight V-A-T alignment. Second, we propose Omni2Sound, a unified VT2A diffusion model supporting flexible input modalities. To resolve the inherent cross-task and intra-task competition, we design a three-stage multi-task progressive training schedule that converts cross-task competition into joint optimization and mitigates modality bias in the VT2A task, maintaining both audio-visual alignment and off-screen audio generation faithfulness. Finally, we construct VGGSound-Omni, a comprehensive benchmark for unified evaluation, including challenging off-screen tracks. With a standard DiT backbone, Omni2Sound achieves unified SOTA performance across all three tasks within a single model, demonstrating strong generalization across benchmarks with heterogeneous input conditions. The project page is at https://swapforward.github.io/Omni2Sound.