UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

作者: Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao

分类: cs.CV

发布日期: 2026-05-01

备注: Project page: https://houyuanchen111.github.io/UniVidX.github.io/ Accepted to ACM Transactions on Graphics (Proceedings of SIGGRAPH 2026)

期刊: ACM Trans. Graph. 45, 4, Article 51 (July 2026)

DOI: 10.1145/3811304

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

UniVidX：基于扩散先验的统一多模态视频生成框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频生成 多模态学习 扩散模型 条件生成 跨模态对齐

📋 核心要点

现有视频扩散模型通常为每个任务单独训练，限制了跨模态相关性的建模。
UniVidX提出统一框架，通过随机条件掩码、解耦门控LoRA和跨模态自注意力实现多模态视频生成。
实验表明，UniVidX在固有图和RGBA层生成任务上达到SOTA水平，并具有良好的泛化能力。

📝 摘要（中文）

本文提出UniVidX，一个统一的多模态框架，利用视频扩散模型（VDM）先验进行多功能视频生成。UniVidX将像素对齐任务表述为共享多模态空间中的条件生成，适应特定模态的分布，同时保留主干网络的原始先验，并在合成过程中促进跨模态一致性。该框架基于三个关键设计：随机条件掩码（SCM），在训练期间随机将模态划分为干净条件和噪声目标，实现全向条件生成而非固定映射；解耦门控LoRA（DGL），引入每个模态的LoRA，当模态作为生成目标时激活，保留VDM的强大先验；跨模态自注意力（CMSA），共享跨模态的键和值，同时保持模态特定的查询，促进信息交换和模态间对齐。UniVidX在两个领域实例化：UniVid-Intrinsic，用于RGB视频和固有图（包括反照率、辐照度和法线）；UniVid-Alpha，用于混合RGB视频及其组成的RGBA层。实验表明，这两个模型在不同的任务中都达到了与最先进方法相媲美的性能，并且即使在少于1000个视频上训练，也能稳健地泛化到真实场景。

🔬 方法详解

问题定义：现有方法针对不同的视频生成任务（例如，RGB视频生成、固有图像生成、RGBA图层生成）通常需要训练独立的模型。这种做法不仅效率低下，而且无法有效利用不同模态之间的相关性。因此，如何构建一个统一的框架，能够处理多种视频生成任务，并充分利用不同模态之间的信息，是一个重要的挑战。

核心思路：UniVidX的核心思路是将不同的视频生成任务统一到一个条件生成框架中，利用视频扩散模型（VDM）的强大先验知识。通过将所有模态（例如，RGB、反照率、法线）映射到一个共享的多模态空间，并使用条件信息来控制生成过程，UniVidX能够灵活地处理各种输入输出组合。

技术框架：UniVidX的整体框架基于视频扩散模型。在训练阶段，框架使用随机条件掩码（SCM）将模态随机划分为条件和目标，从而实现全向的条件生成。解耦门控LoRA（DGL）用于适应特定模态的分布，同时保留VDM的先验知识。跨模态自注意力（CMSA）用于促进不同模态之间的信息交换和对齐。在推理阶段，根据给定的条件模态，UniVidX生成目标模态的视频。

关键创新：UniVidX的关键创新在于其统一的多模态框架，能够处理多种视频生成任务。随机条件掩码（SCM）使得模型能够学习全向的条件生成，而解耦门控LoRA（DGL）和跨模态自注意力（CMSA）则保证了模型能够有效地利用不同模态之间的信息。与现有方法相比，UniVidX不需要为每个任务单独训练模型，从而大大提高了效率。

关键设计：随机条件掩码（SCM）以一定的概率将模态作为条件或目标，概率是超参数。解耦门控LoRA（DGL）为每个模态引入独立的LoRA模块，并使用门控机制来控制LoRA模块的激活。跨模态自注意力（CMSA）共享键和值，但保持模态特定的查询，以促进信息交换和对齐。损失函数包括扩散模型的标准损失函数，以及可选的跨模态一致性损失。

🖼️ 关键图片

📊 实验亮点

UniVidX在UniVid-Intrinsic和UniVid-Alpha两个领域进行了实验，结果表明，该模型在不同的任务中都达到了与最先进方法相媲美的性能。例如，在固有图像生成任务中，UniVidX在PSNR和SSIM等指标上均优于现有方法。此外，UniVidX即使在少于1000个视频上训练，也能稳健地泛化到真实场景，表明其具有良好的泛化能力。

🎯 应用场景

UniVidX具有广泛的应用前景，包括视频编辑、游戏开发、电影制作等领域。例如，可以利用UniVidX生成逼真的固有图像，用于光照和材质编辑；也可以生成RGBA图层，用于视频合成和特效制作。该研究有望推动多模态视频生成技术的发展，并为相关应用带来新的可能性。

📄 摘要（原文）

Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理