Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model
作者: SII-GAIR, Sand. ai, :, Ethan Chern, Hansi Teng, Hanwen Sun, Hao Wang, Hong Pan, Hongyu Jia, Jiadi Su, Jin Li, Junjie Yu, Lijie Liu, Lingzhi Li, Lyumanshan Ye, Min Hu, Qiangang Wang, Quanwei Qi, Steffi Chern, Tao Bu, Taoran Wang, Teren Xu, Tianning Zhang, Tiantian Mi, Weixian Xu, Wenqiang Zhang, Wentai Zhang, Xianping Yi, Xiaojie Cai, Xiaoyang Kang, Yan Ma, Yixiu Liu, Yunbo Zhang, Yunpeng Huang, Yutong Lin, Zewei Tao, Zhaoliang Liu, Zheng Zhang, Zhiyao Cen, Zhixuan Yu, Zhongshu Wang, Zhulin Hu, Zijin Zhou, Zinan Guo, Yue Cao, Pengfei Liu
分类: cs.CV
发布日期: 2026-03-23
💡 一句话要点
daVinci-MagiHuman:基于单流Transformer的快速音视频生成基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音视频生成 单流Transformer 多模态融合 人像生成 模型蒸馏 潜在空间超分辨率 开源模型 自注意力
📋 核心要点
- 现有音视频生成模型通常采用多流或交叉注意力架构,导致模型复杂、训练困难且推理效率低。
- daVinci-MagiHuman采用单流Transformer架构,统一处理文本、视频和音频,简化了模型结构并提升了训练效率。
- 实验结果表明,该模型在视觉质量、文本对齐和语音清晰度方面均优于现有开源模型,并在推理速度上具有显著优势。
📝 摘要(中文)
本文提出daVinci-MagiHuman,一个开源的、以人为中心的音视频生成基础模型。daVinci-MagiHuman使用单流Transformer联合生成同步的视频和音频,该Transformer通过自注意力在统一的token序列中处理文本、视频和音频。这种单流设计避免了多流或交叉注意力架构的复杂性,同时易于使用标准训练和推理基础设施进行优化。该模型在以人为中心的场景中表现出色,能够生成富有表现力的面部表演、自然的语音-表情协调、逼真的身体运动以及精确的音视频同步。它支持包括中文(普通话和粤语)、英语、日语、韩语、德语和法语在内的多语种口语生成。为了实现高效推理,我们将单流骨干网络与模型蒸馏、潜在空间超分辨率和Turbo VAE解码器相结合,从而能够在单个H100 GPU上于2秒内生成5秒的256p视频。在自动评估中,daVinci-MagiHuman在领先的开放模型中实现了最高的视觉质量和文本对齐,以及最低的语音清晰度词错误率(14.60%)。在成对人工评估中,经过2000多次比较,它对Ovi 1.1的胜率为80.0%,对LTX 2.3的胜率为60.9%。我们开源了完整的模型堆栈,包括基础模型、蒸馏模型、超分辨率模型和推理代码库。
🔬 方法详解
问题定义:现有音视频生成模型,特别是针对人像的生成模型,通常采用多流或交叉注意力机制来处理不同模态的信息。这种设计增加了模型的复杂性,使得训练和推理过程变得更加困难和耗时。此外,多流模型难以保证不同模态之间的高度同步性,影响生成内容的质量。
核心思路:daVinci-MagiHuman的核心思路是采用一个单流Transformer架构来统一处理文本、视频和音频信息。通过将所有模态的信息编码成统一的token序列,并利用Transformer的自注意力机制来学习模态间的关系,从而避免了多流架构的复杂性,并保证了模态间的同步性。
技术框架:daVinci-MagiHuman的整体架构包括一个单流Transformer编码器-解码器结构。输入包括文本提示、视频帧和音频波形。这些输入首先被分别编码成token序列,然后拼接成一个统一的token序列输入到Transformer中。Transformer解码器根据输入的token序列生成视频帧和音频波形。为了提高推理效率,该模型还采用了模型蒸馏、潜在空间超分辨率和Turbo VAE解码器等技术。
关键创新:daVinci-MagiHuman的关键创新在于其单流Transformer架构,它能够以更简洁的方式处理多模态信息,并实现高效的音视频生成。此外,该模型还采用了多种优化技术,如模型蒸馏和潜在空间超分辨率,进一步提高了推理速度和生成质量。
关键设计:在模型设计方面,daVinci-MagiHuman采用了标准的Transformer架构,并针对音视频生成任务进行了优化。例如,在音频编码方面,使用了专门的音频编码器来提取音频特征。在视频解码方面,使用了Turbo VAE解码器来提高生成视频的质量。此外,该模型还采用了多种损失函数来优化生成结果,包括对抗损失、感知损失和文本对齐损失等。
🖼️ 关键图片
📊 实验亮点
daVinci-MagiHuman在自动评估中,视觉质量和文本对齐方面均优于其他领先的开源模型,并且在语音清晰度方面实现了最低的词错误率(14.60%)。在人工评估中,daVinci-MagiHuman对Ovi 1.1的胜率为80.0%,对LTX 2.3的胜率为60.9%。此外,该模型能够在单个H100 GPU上于2秒内生成5秒的256p视频,展示了其高效的推理能力。
🎯 应用场景
daVinci-MagiHuman具有广泛的应用前景,包括虚拟人生成、数字内容创作、在线教育、娱乐互动等领域。它可以用于生成逼真的虚拟形象,制作高质量的音视频内容,提供个性化的教育服务,以及创造更具沉浸感的娱乐体验。该模型的开源发布将促进相关技术的发展和应用。
📄 摘要(原文)
We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.