Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

作者: Luozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li

分类: cs.CV, cs.AI

发布日期: 2026-04-09

备注: Page and Code: https://fr0zencrane.github.io/uni-vigu-page/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Uni-ViGU：基于扩散模型的统一视频生成与理解框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频生成 视频理解 多模态学习 扩散模型 统一模型 生成式模型 流匹配 MoE

📋 核心要点

现有统一多模态模型在视频生成任务中计算成本过高，限制了其应用。
Uni-ViGU通过扩展视频生成器，并引入统一流方法和模态驱动的MoE框架，实现了视频生成和理解的统一。
实验结果表明，Uni-ViGU在视频生成和理解任务上均表现出色，验证了其有效性。

📝 摘要（中文）

统一多模态模型在整合视觉理解和生成时面临一个根本挑战：视觉生成，特别是视频生成，比理解产生更高的计算成本。为了解决这个不平衡问题，我们提出了Uni-ViGU，一个通过扩展视频生成器作为基础来统一视频生成和理解的框架，从而颠覆了传统范式。我们引入了一种统一的流方法，在单个过程中对视频执行连续流匹配，对文本执行离散流匹配，从而实现连贯的多模态生成。我们进一步提出了一个基于模态驱动的MoE框架，该框架使用轻量级层来增强Transformer块，以进行文本生成，同时保留生成先验。为了将生成知识重新用于理解，我们设计了一个具有两个阶段的双向训练机制：知识召回重建输入提示以利用学习到的文本-视频对应关系，而能力细化则在详细的字幕上进行微调，以建立区分性的共享表示。实验表明，Uni-ViGU在视频生成和理解方面都取得了具有竞争力的性能，验证了以生成为中心的架构是通往统一多模态智能的可扩展路径。

🔬 方法详解

问题定义：现有统一多模态模型通常以理解为中心，扩展理解模型以支持生成。然而，视频生成相比于理解需要更高的计算资源，导致模型效率低下，难以扩展。因此，论文旨在解决视频生成和理解任务计算资源不平衡的问题，并探索一种更高效的统一模型架构。

核心思路：论文的核心思路是“以生成为中心”，即以视频生成器为基础，通过扩展生成器的能力来支持视频理解任务。这种思路颠覆了传统的以理解为中心的范式，旨在利用生成模型强大的生成能力，并将其知识迁移到理解任务中。

技术框架：Uni-ViGU框架主要包含三个核心模块：1) 统一流方法：使用连续流匹配进行视频生成，离散流匹配进行文本生成，从而实现多模态数据的统一处理。2) 模态驱动的MoE：在Transformer块中加入轻量级的文本生成层，保留生成先验知识。3) 双向训练机制：包含知识召回和能力细化两个阶段，前者利用文本-视频对应关系，后者通过微调建立区分性的共享表示。

关键创新：Uni-ViGU的关键创新在于其“以生成为中心”的架构设计和双向训练机制。传统的统一模型通常以理解为中心，而Uni-ViGU则反其道而行之，以生成为基础，更有效地利用了生成模型的强大能力。双向训练机制则实现了生成知识向理解任务的有效迁移。

关键设计：统一流方法通过共享的流场表示连接视频和文本，具体实现细节未知。模态驱动的MoE框架中，轻量级文本生成层的具体结构和参数设置未知。双向训练机制中，知识召回阶段的具体损失函数和能力细化阶段的微调策略未知。

🖼️ 关键图片

📊 实验亮点

Uni-ViGU在视频生成和理解任务上均取得了具有竞争力的性能。具体性能数据和对比基线未在摘要中明确给出，但论文强调Uni-ViGU验证了以生成为中心的架构是通往统一多模态智能的可扩展路径。详细的实验结果需要在论文正文中查找。

🎯 应用场景

Uni-ViGU具有广泛的应用前景，例如智能视频编辑、视频内容生成、视频问答、视频描述生成等。该研究有助于推动多模态人工智能的发展，并为构建更智能、更高效的视频处理系统奠定基础。未来，该技术有望应用于教育、娱乐、医疗等多个领域。

📄 摘要（原文）

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理