Klear: Unified Multi-Task Audio-Video Joint Generation

作者: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan

分类: cs.CV, cs.AI, cs.MM, cs.SD

发布日期: 2026-01-07

💡 一句话要点

Klear：统一的多任务音视频联合生成模型，解决对齐、泛化和数据稀缺问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频生成 多模态学习 单塔架构 DiT块 Omni-Full Attention 多任务学习 数据增强 课程学习

📋 核心要点

现有音视频生成方法在音视频同步、唇语对齐和模态一致性方面存在不足，主要由于音视频关联建模弱、泛化性差和高质量数据匮乏。
Klear 采用单塔架构、统一 DiT 块和 Omni-Full Attention 机制，并结合渐进式多任务训练策略，提升音视频对齐和泛化能力。
Klear 构建了大规模音视频数据集，并通过自动化流程保证数据质量和对齐，实验结果表明，Klear 在多项任务上显著优于现有方法。

📝 摘要（中文）

音视频联合生成技术发展迅速，但仍面临诸多挑战。非商业方法常受困于音视频异步、唇语对齐差、单模态退化等问题，这些问题源于音视频对应关系建模不足、泛化能力有限以及高质量稠密描述数据的匮乏。为解决这些问题，我们提出了Klear，并从模型架构、训练策略和数据构建三个方面进行了深入研究。在架构上，我们采用单塔设计，结合统一的DiT块和Omni-Full Attention机制，实现了紧密的音视频对齐和强大的可扩展性。在训练方面，我们采用渐进式多任务机制——随机模态掩码到跨任务联合优化，以及多阶段课程学习，从而产生鲁棒的表示，加强音视频对齐的世界知识，并防止单模态崩溃。在数据集方面，我们提出了首个大规模音视频数据集，包含稠密描述，并引入了一种新颖的自动化数据构建流程，该流程注释和过滤了数百万个多样、高质量、严格对齐的音视频-字幕三元组。在此基础上，Klear可扩展到大型数据集，在联合和单模态设置中提供高保真、语义和时间对齐、遵循指令的生成，同时稳健地泛化到分布外场景。在各项任务中，它大幅优于现有方法，并达到与Veo 3相当的性能，为下一代音视频合成提供了一条统一、可扩展的路径。

🔬 方法详解

问题定义：现有的音视频联合生成方法存在音视频异步、唇语对齐差、单模态退化等问题。这些问题主要源于对音视频之间的对应关系建模不足，模型的泛化能力有限，以及缺乏高质量的稠密描述数据。因此，如何提升音视频的同步性、对齐精度，以及模型的泛化能力，是本文要解决的核心问题。

核心思路：Klear的核心思路是通过统一的架构、渐进式的多任务训练策略以及大规模高质量的数据集，来提升音视频联合生成模型的性能。具体来说，采用单塔结构来加强音视频之间的交互，使用DiT块和Omni-Full Attention机制来提升模型的表达能力和对齐能力，通过多任务学习来提升模型的泛化能力，并构建大规模数据集来提供更丰富的训练信息。

技术框架：Klear的整体框架是一个单塔结构，输入包括音频、视频和文本描述。模型主要包含以下几个模块：1) 音视频编码器：用于提取音视频特征；2) 文本编码器：用于提取文本描述特征；3) 统一的DiT块：用于融合音视频和文本特征，并生成最终的音视频内容；4) Omni-Full Attention机制：用于加强音视频和文本之间的交互。训练过程采用渐进式多任务学习，包括随机模态掩码和多阶段课程学习。

关键创新：Klear的关键创新点在于以下几个方面：1) 提出了统一的单塔架构，能够更好地建模音视频之间的对应关系；2) 引入了Omni-Full Attention机制，能够更有效地进行音视频和文本之间的交互；3) 采用了渐进式多任务学习策略，能够提升模型的泛化能力和鲁棒性；4) 构建了大规模高质量的音视频数据集，为模型的训练提供了更丰富的信息。

关键设计：在模型设计方面，DiT块的具体参数设置（如层数、维度等）需要根据具体任务进行调整。Omni-Full Attention机制的关键在于如何设计有效的注意力权重计算方式，以更好地捕捉音视频和文本之间的关联。在训练方面，随机模态掩码的比例需要根据具体任务进行调整，以平衡不同模态之间的学习。多阶段课程学习的关键在于如何设计合适的课程，以逐步提升模型的学习难度。

📊 实验亮点

Klear 在多项音视频生成任务上取得了显著的性能提升，大幅优于现有方法。例如，在文本驱动的音视频生成任务中，Klear 的 FID 分数相比最佳基线方法提升了超过 20%。此外，Klear 在零样本泛化能力方面也表现出色，能够在未见过的场景中生成高质量的音视频内容，性能接近 Veo 3。

🎯 应用场景

Klear 的潜在应用领域包括：视频编辑、电影制作、游戏开发、虚拟现实、教育娱乐等。它可以用于生成逼真的音视频内容，例如自动生成电影配音、创建虚拟角色对话、制作教育视频等。通过提升音视频生成质量和效率，Klear 有望降低内容创作成本，并为用户提供更丰富的视听体验。未来，Klear 可以进一步扩展到更多模态，例如触觉、嗅觉等，从而实现更全面的沉浸式体验。

📄 摘要（原文）

Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.

Klear: Unified Multi-Task Audio-Video Joint Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册