Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

📄 arXiv: 2604.08121v1 📥 PDF

作者: Luozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li

分类: cs.CV, cs.AI

发布日期: 2026-04-09

备注: Page and Code: https://fr0zencrane.github.io/uni-vigu-page/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Uni-ViGU:基于扩散模型的统一视频生成与理解框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 视频理解 多模态学习 扩散模型 统一模型 生成式模型 流匹配 MoE

📋 核心要点

  1. 现有统一多模态模型在视频生成任务中计算成本过高,限制了其应用。
  2. Uni-ViGU通过扩展视频生成器,并引入统一流方法和模态驱动的MoE框架,实现了视频生成和理解的统一。
  3. 实验结果表明,Uni-ViGU在视频生成和理解任务上均表现出色,验证了其有效性。

📝 摘要(中文)

统一多模态模型在整合视觉理解和生成时面临一个根本挑战:视觉生成,特别是视频生成,比理解产生更高的计算成本。为了解决这个不平衡问题,我们提出了Uni-ViGU,一个通过扩展视频生成器作为基础来统一视频生成和理解的框架,从而颠覆了传统范式。我们引入了一种统一的流方法,在单个过程中对视频执行连续流匹配,对文本执行离散流匹配,从而实现连贯的多模态生成。我们进一步提出了一个基于模态驱动的MoE框架,该框架使用轻量级层来增强Transformer块,以进行文本生成,同时保留生成先验。为了将生成知识重新用于理解,我们设计了一个具有两个阶段的双向训练机制:知识召回重建输入提示以利用学习到的文本-视频对应关系,而能力细化则在详细的字幕上进行微调,以建立区分性的共享表示。实验表明,Uni-ViGU在视频生成和理解方面都取得了具有竞争力的性能,验证了以生成为中心的架构是通往统一多模态智能的可扩展路径。

🔬 方法详解

问题定义:现有统一多模态模型通常以理解为中心,扩展理解模型以支持生成。然而,视频生成相比于理解需要更高的计算资源,导致模型效率低下,难以扩展。因此,论文旨在解决视频生成和理解任务计算资源不平衡的问题,并探索一种更高效的统一模型架构。

核心思路:论文的核心思路是“以生成为中心”,即以视频生成器为基础,通过扩展生成器的能力来支持视频理解任务。这种思路颠覆了传统的以理解为中心的范式,旨在利用生成模型强大的生成能力,并将其知识迁移到理解任务中。

技术框架:Uni-ViGU框架主要包含三个核心模块:1) 统一流方法:使用连续流匹配进行视频生成,离散流匹配进行文本生成,从而实现多模态数据的统一处理。2) 模态驱动的MoE:在Transformer块中加入轻量级的文本生成层,保留生成先验知识。3) 双向训练机制:包含知识召回和能力细化两个阶段,前者利用文本-视频对应关系,后者通过微调建立区分性的共享表示。

关键创新:Uni-ViGU的关键创新在于其“以生成为中心”的架构设计和双向训练机制。传统的统一模型通常以理解为中心,而Uni-ViGU则反其道而行之,以生成为基础,更有效地利用了生成模型的强大能力。双向训练机制则实现了生成知识向理解任务的有效迁移。

关键设计:统一流方法通过共享的流场表示连接视频和文本,具体实现细节未知。模态驱动的MoE框架中,轻量级文本生成层的具体结构和参数设置未知。双向训练机制中,知识召回阶段的具体损失函数和能力细化阶段的微调策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Uni-ViGU在视频生成和理解任务上均取得了具有竞争力的性能。具体性能数据和对比基线未在摘要中明确给出,但论文强调Uni-ViGU验证了以生成为中心的架构是通往统一多模态智能的可扩展路径。详细的实验结果需要在论文正文中查找。

🎯 应用场景

Uni-ViGU具有广泛的应用前景,例如智能视频编辑、视频内容生成、视频问答、视频描述生成等。该研究有助于推动多模态人工智能的发展,并为构建更智能、更高效的视频处理系统奠定基础。未来,该技术有望应用于教育、娱乐、医疗等多个领域。

📄 摘要(原文)

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.