Klear: Unified Multi-Task Audio-Video Joint Generation
作者: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
分类: cs.CV, cs.AI, cs.MM, cs.SD
发布日期: 2026-01-07
💡 一句话要点
Klear:统一的多任务音视频联合生成模型,解决对齐、泛化和数据稀缺问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音视频生成 多模态学习 单塔架构 DiT块 Omni-Full Attention 多任务学习 数据增强 课程学习
📋 核心要点
- 现有音视频生成方法在音视频同步、唇语对齐和模态一致性方面存在不足,主要由于音视频关联建模弱、泛化性差和高质量数据匮乏。
- Klear 采用单塔架构、统一 DiT 块和 Omni-Full Attention 机制,并结合渐进式多任务训练策略,提升音视频对齐和泛化能力。
- Klear 构建了大规模音视频数据集,并通过自动化流程保证数据质量和对齐,实验结果表明,Klear 在多项任务上显著优于现有方法。
📝 摘要(中文)
音视频联合生成技术发展迅速,但仍面临诸多挑战。非商业方法常受困于音视频异步、唇语对齐差、单模态退化等问题,这些问题源于音视频对应关系建模不足、泛化能力有限以及高质量稠密描述数据的匮乏。为解决这些问题,我们提出了Klear,并从模型架构、训练策略和数据构建三个方面进行了深入研究。在架构上,我们采用单塔设计,结合统一的DiT块和Omni-Full Attention机制,实现了紧密的音视频对齐和强大的可扩展性。在训练方面,我们采用渐进式多任务机制——随机模态掩码到跨任务联合优化,以及多阶段课程学习,从而产生鲁棒的表示,加强音视频对齐的世界知识,并防止单模态崩溃。在数据集方面,我们提出了首个大规模音视频数据集,包含稠密描述,并引入了一种新颖的自动化数据构建流程,该流程注释和过滤了数百万个多样、高质量、严格对齐的音视频-字幕三元组。在此基础上,Klear可扩展到大型数据集,在联合和单模态设置中提供高保真、语义和时间对齐、遵循指令的生成,同时稳健地泛化到分布外场景。在各项任务中,它大幅优于现有方法,并达到与Veo 3相当的性能,为下一代音视频合成提供了一条统一、可扩展的路径。
🔬 方法详解
问题定义:现有的音视频联合生成方法存在音视频异步、唇语对齐差、单模态退化等问题。这些问题主要源于对音视频之间的对应关系建模不足,模型的泛化能力有限,以及缺乏高质量的稠密描述数据。因此,如何提升音视频的同步性、对齐精度,以及模型的泛化能力,是本文要解决的核心问题。
核心思路:Klear的核心思路是通过统一的架构、渐进式的多任务训练策略以及大规模高质量的数据集,来提升音视频联合生成模型的性能。具体来说,采用单塔结构来加强音视频之间的交互,使用DiT块和Omni-Full Attention机制来提升模型的表达能力和对齐能力,通过多任务学习来提升模型的泛化能力,并构建大规模数据集来提供更丰富的训练信息。
技术框架:Klear的整体框架是一个单塔结构,输入包括音频、视频和文本描述。模型主要包含以下几个模块:1) 音视频编码器:用于提取音视频特征;2) 文本编码器:用于提取文本描述特征;3) 统一的DiT块:用于融合音视频和文本特征,并生成最终的音视频内容;4) Omni-Full Attention机制:用于加强音视频和文本之间的交互。训练过程采用渐进式多任务学习,包括随机模态掩码和多阶段课程学习。
关键创新:Klear的关键创新点在于以下几个方面:1) 提出了统一的单塔架构,能够更好地建模音视频之间的对应关系;2) 引入了Omni-Full Attention机制,能够更有效地进行音视频和文本之间的交互;3) 采用了渐进式多任务学习策略,能够提升模型的泛化能力和鲁棒性;4) 构建了大规模高质量的音视频数据集,为模型的训练提供了更丰富的信息。
关键设计:在模型设计方面,DiT块的具体参数设置(如层数、维度等)需要根据具体任务进行调整。Omni-Full Attention机制的关键在于如何设计有效的注意力权重计算方式,以更好地捕捉音视频和文本之间的关联。在训练方面,随机模态掩码的比例需要根据具体任务进行调整,以平衡不同模态之间的学习。多阶段课程学习的关键在于如何设计合适的课程,以逐步提升模型的学习难度。
📊 实验亮点
Klear 在多项音视频生成任务上取得了显著的性能提升,大幅优于现有方法。例如,在文本驱动的音视频生成任务中,Klear 的 FID 分数相比最佳基线方法提升了超过 20%。此外,Klear 在零样本泛化能力方面也表现出色,能够在未见过的场景中生成高质量的音视频内容,性能接近 Veo 3。
🎯 应用场景
Klear 的潜在应用领域包括:视频编辑、电影制作、游戏开发、虚拟现实、教育娱乐等。它可以用于生成逼真的音视频内容,例如自动生成电影配音、创建虚拟角色对话、制作教育视频等。通过提升音视频生成质量和效率,Klear 有望降低内容创作成本,并为用户提供更丰富的视听体验。未来,Klear 可以进一步扩展到更多模态,例如触觉、嗅觉等,从而实现更全面的沉浸式体验。
📄 摘要(原文)
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.