AI Powered High Quality Text to Video Generation with Enhanced Temporal Consistency

📄 arXiv: 2511.00107v1 📥 PDF

作者: Piyushkumar Patel

分类: cs.CV, cs.AI, cs.IR

发布日期: 2025-10-30


💡 一句话要点

MOVAI:提出一种基于AI的高质量文本生成视频框架,提升时间一致性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本生成视频 时间一致性 扩散模型 场景图 多模态融合

📋 核心要点

  1. 现有文本生成视频方法在时间一致性、组合理解和细粒度控制方面存在不足,难以生成高质量视频。
  2. MOVAI框架通过组合场景解析、时空注意力机制和渐进式视频细化,实现高质量且时间一致的视频生成。
  3. 实验结果表明,MOVAI在视频质量指标上显著优于现有方法,尤其在复杂多对象场景生成方面表现突出。

📝 摘要(中文)

本文提出了一种名为MOVAI(多模态原创视频AI)的新型分层框架,用于高质量文本到视频的合成,旨在解决现有方法在时间一致性、组合理解和对视觉叙事进行细粒度控制方面的不足。MOVAI集成了组合场景理解和时间感知扩散模型。该方法引入了三个关键创新:(1) 将文本描述分解为具有时间注释的分层场景图的组合场景解析器(CSP);(2) 确保跨帧连贯运动动态同时保留空间细节的时间-空间注意力机制(TSAM);(3) 通过多尺度时间推理迭代增强视频质量的渐进式视频细化(PVR)模块。在标准基准上的大量实验表明,MOVAI 实现了最先进的性能,在 LPIPS 中提高了 15.3%,在 FVD 中提高了 12.7%,并且在用户偏好研究中比现有方法提高了 18.9%。我们的框架在生成具有真实时间动态和细粒度语义控制的复杂多对象场景方面表现出特别的优势。

🔬 方法详解

问题定义:现有文本生成视频方法难以维持生成视频的时间一致性,对复杂场景的组合理解不足,并且缺乏对视觉叙事的细粒度控制。这些问题导致生成的视频质量不高,难以满足实际应用的需求。

核心思路:MOVAI的核心思路是将文本描述分解为具有时间信息的场景图,然后利用时间感知的扩散模型生成视频。通过组合场景解析器(CSP)理解场景的组成,利用时间-空间注意力机制(TSAM)保持时间一致性,并使用渐进式视频细化(PVR)模块提升视频质量。

技术框架:MOVAI框架包含三个主要模块:1) 组合场景解析器(CSP):将文本描述解析为分层的场景图,并添加时间注释。2) 时间-空间注意力机制(TSAM):在扩散模型的生成过程中,确保跨帧的运动连贯性,同时保留空间细节。3) 渐进式视频细化(PVR):通过多尺度的时间推理,迭代地提升视频质量。

关键创新:MOVAI的关键创新在于:1) 引入了组合场景解析器,能够更好地理解文本描述中的场景组成和时间关系。2) 设计了时间-空间注意力机制,有效地保持了视频的时间一致性。3) 提出了渐进式视频细化模块,通过迭代优化提升了视频质量。这些创新使得MOVAI能够生成更高质量、更逼真的视频。

关键设计:CSP模块使用预训练的语言模型和目标检测模型来解析文本描述和图像,并构建场景图。TSAM模块在Transformer架构中引入时间注意力,以捕捉帧之间的依赖关系。PVR模块使用多尺度的卷积神经网络进行视频细化,并采用对抗训练来提升生成视频的真实感。具体的损失函数包括LPIPS损失、FVD损失和对抗损失等。

📊 实验亮点

MOVAI在标准基准测试中取得了显著的性能提升。与现有方法相比,MOVAI在LPIPS指标上提高了15.3%,在FVD指标上提高了12.7%,并且在用户偏好研究中获得了18.9%的提升。这些数据表明,MOVAI在视频质量和时间一致性方面都优于现有技术。

🎯 应用场景

MOVAI在游戏开发、电影制作、广告设计、教育内容生成等领域具有广泛的应用前景。它可以根据文本描述快速生成高质量的视频内容,降低视频制作的成本和时间,并为用户提供更加个性化的视频体验。未来,该技术有望应用于虚拟现实、增强现实等新兴领域。

📄 摘要(原文)

Text to video generation has emerged as a critical frontier in generative artificial intelligence, yet existing approaches struggle with maintaining temporal consistency, compositional understanding, and fine grained control over visual narratives. We present MOVAI (Multimodal Original Video AI), a novel hierarchical framework that integrates compositional scene understanding with temporal aware diffusion models for high fidelity text to video synthesis. Our approach introduces three key innovations: (1) a Compositional Scene Parser (CSP) that decomposes textual descriptions into hierarchical scene graphs with temporal annotations, (2) a Temporal-Spatial Attention Mechanism (TSAM) that ensures coherent motion dynamics across frames while preserving spatial details, and (3) a Progressive Video Refinement (PVR) module that iteratively enhances video quality through multi-scale temporal reasoning. Extensive experiments on standard benchmarks demonstrate that MOVAI achieves state-of-the-art performance, improving video quality metrics by 15.3% in LPIPS, 12.7% in FVD, and 18.9% in user preference studies compared to existing methods. Our framework shows particular strength in generating complex multi-object scenes with realistic temporal dynamics and fine-grained semantic control.