OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

📄 arXiv: 2603.24458v1 📥 PDF

作者: Kaihang Pan, Qi Tian, Jianwei Zhang, Weijie Kong, Jiangfeng Xiong, Yanxin Long, Shixue Zhang, Haiyi Qiu, Tan Wang, Zheqi Lv, Yue Wu, Liefeng Bo, Siliang Tang, Zhao Zhong

分类: cs.CV

发布日期: 2026-03-25

备注: 32 pages, 22 figures. Project Page: https://omniweaving.github.io


💡 一句话要点

OmniWeaving:提出一种支持自由组合和推理的统一视频生成模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 多模态融合 文本到视频 图像到视频 视频编辑 推理 预训练 统一模型

📋 核心要点

  1. 现有开源视频生成模型难以统一处理多种任务,限制了其在复杂场景下的应用。
  2. OmniWeaving通过大规模预训练学习多模态组合和推理,实现对复杂用户意图的理解和视频生成。
  3. IntelligentVBench基准测试表明,OmniWeaving在开源统一模型中取得了领先的性能。

📝 摘要(中文)

现有开源视频生成模型在能力上与Seedance-2.0等专有系统存在显著差距。学术模型碎片化严重,统一视频生成模型难以无缝集成多种任务。为弥合这一差距,我们提出了OmniWeaving,一种全能型视频生成模型,具有强大的多模态组合和推理能力。通过大规模预训练数据集,涵盖各种组合和推理增强场景,OmniWeaving学会了在时间上绑定交错的文本、多图像和视频输入,并充当智能代理,推断复杂的用户意图以进行复杂的视频创建。此外,我们引入了IntelligentVBench,这是第一个旨在严格评估下一代智能统一视频生成的综合基准。大量实验表明,OmniWeaving在开源统一模型中实现了SoTA性能。代码和模型即将公开。

🔬 方法详解

问题定义:现有开源视频生成模型通常专注于单一任务,缺乏对多模态输入(文本、图像、视频)的统一处理能力,难以满足用户在复杂场景下的视频生成需求。现有方法在组合性和推理能力方面存在不足,无法理解用户深层次的意图,导致生成的视频质量和相关性不高。

核心思路:OmniWeaving的核心思路是通过大规模预训练,使模型能够学习到多模态输入之间的关联,并具备推理用户意图的能力。通过将文本、图像和视频等多种模态的信息融合在一起,模型可以更好地理解用户的需求,并生成更符合用户期望的视频。

技术框架:OmniWeaving的整体框架包含以下几个主要模块:1) 多模态输入编码器:用于将文本、图像和视频等输入编码成统一的特征表示。2) 时序绑定模块:用于在时间维度上对不同模态的特征进行对齐和融合。3) 推理模块:用于根据用户的输入和上下文信息,推断用户的意图。4) 视频生成模块:用于根据推理结果生成最终的视频。

关键创新:OmniWeaving的关键创新在于其统一的多模态处理框架和推理能力。与现有方法相比,OmniWeaving能够更好地处理多种模态的输入,并能够根据用户的意图生成更符合用户期望的视频。此外,IntelligentVBench基准的提出也为评估统一视频生成模型的性能提供了一个新的标准。

关键设计:OmniWeaving使用了大规模的预训练数据集,涵盖了各种组合和推理增强场景。模型采用了Transformer架构,并针对视频生成任务进行了优化。损失函数包括重构损失、对比损失和对抗损失等,用于提高生成视频的质量和相关性。具体的参数设置和网络结构细节将在后续公开的代码中提供。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniWeaving在IntelligentVBench基准测试中取得了显著的成果,在多个指标上超越了现有的开源统一视频生成模型,证明了其在多模态组合和推理方面的优势。具体性能数据将在论文和项目页面中公布。

🎯 应用场景

OmniWeaving具有广泛的应用前景,包括视频编辑、内容创作、虚拟现实、游戏开发等领域。它可以帮助用户快速生成高质量的视频内容,降低视频制作的门槛,并为用户提供更加个性化的视频生成体验。未来,OmniWeaving有望成为视频生成领域的重要工具。

📄 摘要(原文)

While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.