MOVA: Towards Scalable and Synchronized Video-Audio Generation

📄 arXiv: 2602.08794v1 📥 PDF

作者: SII-OpenMOSS Team, :, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu

分类: cs.CV, cs.SD

发布日期: 2026-02-09

备注: Technical report for MOVA (open-source video-audio generation model). 38 pages, 10 figures, 22 tables. Project page: https://mosi.cn/models/mova Code: https://github.com/OpenMOSS/MOVA Models: https://huggingface.co/collections/OpenMOSS-Team/mova. Qinyuan Cheng and Tianyi Liang are project leader. Xie Chen and Xipeng Qiu are corresponding authors


💡 一句话要点

MOVA:面向可扩展和同步的视频-音频生成模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 音频生成 多模态生成 混合专家模型 开源模型

📋 核心要点

  1. 现有视听内容生成方法依赖级联流程,导致成本高、误差累积和质量下降。
  2. MOVA模型采用MoE架构,能够同步生成高质量的视频和音频,包括唇音同步语音和环境音效。
  3. MOVA开源模型权重和代码,支持高效推理、LoRA微调和提示增强,促进社区发展。

📝 摘要(中文)

音频对于真实世界的视频至关重要,但生成模型在很大程度上忽略了音频成分。目前生成视听内容的方法通常依赖于级联流程,这增加了成本,累积了误差,并降低了整体质量。虽然像Veo 3和Sora 2这样的系统强调了同步生成的重要性,但联合多模态建模在架构、数据和训练方面带来了独特的挑战。此外,现有系统的闭源性质限制了该领域的进展。本文介绍了MOVA(MOSS视频和音频),一个能够生成高质量、同步的视听内容的开源模型,包括逼真的唇音同步语音、环境感知的音效和内容对齐的音乐。MOVA采用混合专家(MoE)架构,总共有320亿参数,其中180亿参数在推理期间处于活动状态。它支持IT2VA(图像-文本到视频-音频)生成任务。通过发布模型权重和代码,旨在推进研究并培养一个充满活力的创作者社区。发布的代码库全面支持高效推理、LoRA微调和提示增强。

🔬 方法详解

问题定义:现有视听内容生成方法,特别是生成包含音频的视频时,面临着成本高昂、误差累积以及整体质量下降的问题。许多方法采用级联流程,分别生成视频和音频,然后进行同步,这不仅效率低下,而且容易引入不一致性。此外,现有的一些先进系统是闭源的,限制了研究人员在该领域的探索和创新。

核心思路:MOVA的核心思路是采用一种端到端的联合多模态建模方法,同时生成视频和音频,从而避免级联流程中的问题。通过这种方式,模型能够更好地理解视频内容和音频之间的关系,生成更自然、更同步的视听内容。此外,MOVA采用开源策略,旨在促进社区合作和研究进展。

技术框架:MOVA采用混合专家(MoE)架构,该架构包含多个专家网络,每个专家网络负责处理不同类型的输入或生成不同类型的输出。在推理过程中,只有一部分专家网络处于活动状态,从而提高了模型的效率和可扩展性。MOVA支持IT2VA(图像-文本到视频-音频)生成任务,即根据给定的图像和文本描述生成相应的视频和音频。

关键创新:MOVA的关键创新在于其端到端的联合多模态建模方法和混合专家(MoE)架构。与传统的级联方法相比,MOVA能够更有效地生成同步的视听内容。MoE架构使得模型能够处理复杂的输入和输出,并具有良好的可扩展性。此外,MOVA的开源策略也促进了该领域的研究和发展。

关键设计:MOVA模型包含320亿参数,其中180亿参数在推理期间处于活动状态。模型采用混合专家(MoE)架构,具体专家网络的数量和结构未知。模型支持LoRA微调,允许用户在特定数据集上对模型进行微调,以提高其在特定任务上的性能。代码库提供了高效推理和提示增强的支持,具体实现细节未知。

📊 实验亮点

MOVA模型能够生成高质量、同步的视听内容,包括逼真的唇音同步语音、环境感知的音效和内容对齐的音乐。模型采用混合专家(MoE)架构,总共有320亿参数,其中180亿参数在推理期间处于活动状态。MOVA支持IT2VA(图像-文本到视频-音频)生成任务。通过开源模型权重和代码,旨在推进研究并促进社区发展。具体的性能数据和对比基线未知。

🎯 应用场景

MOVA模型具有广泛的应用前景,包括电影制作、游戏开发、虚拟现实、教育娱乐等领域。它可以用于生成逼真的视听内容,例如电影中的特效、游戏中的场景、虚拟现实中的体验等。此外,MOVA还可以用于生成个性化的视听内容,例如根据用户的喜好生成定制的音乐和视频。MOVA的开源特性将促进其在各个领域的应用和发展。

📄 摘要(原文)

Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.