UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

作者: Guozhen Zhang, Zixiang Zhou, Teng Hu, Ziqiao Peng, Youliang Zhang, Yi Chen, Yuan Zhou, Qinglin Lu, Limin Wang

分类: cs.CV

发布日期: 2025-11-05

💡 一句话要点

UniAVGen：提出一种非对称跨模态交互的统一音视频生成框架

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 音视频生成 跨模态学习 扩散模型 Transformer 非对称交互 人脸感知 联合合成

📋 核心要点

现有音视频生成方法在跨模态建模方面存在不足，导致唇音同步和语义一致性较差。
UniAVGen采用双分支扩散Transformer架构，通过非对称跨模态交互机制实现音视频的精确同步和语义一致性。
实验表明，UniAVGen仅使用少量训练数据，即可在音视频同步、音色和情感一致性方面取得显著提升。

📝 摘要（中文）

现有开源音视频生成方法由于缺乏有效的跨模态建模，常在唇音同步和语义一致性方面表现不佳。为了解决这些问题，我们提出了UniAVGen，一个用于联合音视频生成的统一框架。UniAVGen基于双分支联合合成架构，包含两个并行的扩散Transformer（DiT）以构建一个有凝聚力的跨模态潜在空间。其核心是非对称跨模态交互机制，该机制支持双向、时间对齐的交叉注意力，从而确保精确的时空同步和语义一致性。此外，通过人脸感知调制模块增强这种跨模态交互，该模块动态地优先考虑交互过程中的显著区域。为了提高推理过程中的生成保真度，我们还引入了模态感知无分类器指导，这是一种显式放大跨模态相关信号的新策略。值得注意的是，UniAVGen强大的联合合成设计使得在单个模型中无缝统一关键的音视频任务成为可能，例如联合音视频生成和延续、视频到音频的配音以及音频驱动的视频合成。全面的实验验证表明，UniAVGen使用远少于现有方法（130万 vs. 3010万）的训练样本，在音视频同步、音色一致性和情感一致性方面都具有总体优势。

🔬 方法详解

问题定义：现有音视频生成方法，特别是开源方法，在处理音视频同步和语义一致性方面存在困难。根本原因是缺乏有效的跨模态建模机制，导致生成的内容在时间和语义上无法很好地对齐。这限制了这些方法在实际应用中的效果和可用性。

核心思路：UniAVGen的核心思路是构建一个统一的框架，通过双分支架构和非对称跨模态交互机制，显式地建模音视频之间的关系。通过在潜在空间中建立音视频之间的强关联，从而实现更好的同步和一致性。这种设计允许模型同时处理音频和视频信息，并利用它们之间的互补性来提高生成质量。

技术框架：UniAVGen采用双分支联合合成架构，包含两个并行的扩散Transformer（DiT），分别处理音频和视频信息。这两个DiT共同构建一个跨模态潜在空间。非对称跨模态交互模块位于两个分支之间，允许信息在音频和视频之间双向流动。此外，还包含人脸感知调制模块，用于在交互过程中优先考虑人脸等显著区域。在推理阶段，使用模态感知无分类器指导来进一步提高生成质量。

关键创新：UniAVGen的关键创新在于其非对称跨模态交互机制。与传统的对称交叉注意力机制不同，UniAVGen允许音频和视频信息以非对称的方式相互影响，从而更好地捕捉它们之间的复杂关系。此外，人脸感知调制模块能够动态地调整注意力权重，从而提高生成的人脸区域的质量。模态感知无分类器指导则显式地增强了跨模态相关信号，进一步提高了生成结果的保真度。

关键设计：非对称跨模态交互模块使用时间对齐的交叉注意力机制，确保音频和视频信息在时间维度上保持同步。人脸感知调制模块使用预训练的人脸检测器来识别视频中的人脸区域，并根据人脸区域的显著性动态地调整注意力权重。模态感知无分类器指导通过调整扩散模型的条件概率，显式地放大跨模态相关信号。具体的参数设置和损失函数细节在论文中进行了详细描述（未知）。

📊 实验亮点

UniAVGen在音视频同步、音色一致性和情感一致性方面均优于现有方法。值得注意的是，UniAVGen仅使用130万个训练样本，而现有方法通常需要3010万个样本。这表明UniAVGen具有更高的训练效率和更好的泛化能力。具体的性能数据和对比基线在论文中进行了详细描述（未知）。

🎯 应用场景

UniAVGen具有广泛的应用前景，包括电影制作、游戏开发、虚拟现实、社交媒体等领域。它可以用于自动生成音视频内容，例如为无声视频配音、根据音频生成视频、创建虚拟人物等。该研究的实际价值在于降低了音视频内容创作的门槛，提高了创作效率，并为用户提供了更加丰富和个性化的体验。未来，UniAVGen有望成为音视频内容创作领域的重要工具。

📄 摘要（原文）

Due to the lack of effective cross-modal modeling, existing open-source audio-video generation methods often exhibit compromised lip synchronization and insufficient semantic consistency. To mitigate these drawbacks, we propose UniAVGen, a unified framework for joint audio and video generation. UniAVGen is anchored in a dual-branch joint synthesis architecture, incorporating two parallel Diffusion Transformers (DiTs) to build a cohesive cross-modal latent space. At its heart lies an Asymmetric Cross-Modal Interaction mechanism, which enables bidirectional, temporally aligned cross-attention, thus ensuring precise spatiotemporal synchronization and semantic consistency. Furthermore, this cross-modal interaction is augmented by a Face-Aware Modulation module, which dynamically prioritizes salient regions in the interaction process. To enhance generative fidelity during inference, we additionally introduce Modality-Aware Classifier-Free Guidance, a novel strategy that explicitly amplifies cross-modal correlation signals. Notably, UniAVGen's robust joint synthesis design enables seamless unification of pivotal audio-video tasks within a single model, such as joint audio-video generation and continuation, video-to-audio dubbing, and audio-driven video synthesis. Comprehensive experiments validate that, with far fewer training samples (1.3M vs. 30.1M), UniAVGen delivers overall advantages in audio-video synchronization, timbre consistency, and emotion consistency.

UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册