DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation

📄 arXiv: 2504.15032v2 📥 PDF

作者: Weijie He, Mushui Liu, Yunlong Yu, Zhao Wang, Chao Wu

分类: cs.CV

发布日期: 2025-04-21 (更新: 2025-04-30)

备注: 9 pages, 6 figures

🔗 代码/项目: GITHUB


💡 一句话要点

DyST-XL:提出一种训练自由的框架,通过动态布局规划和内容控制,提升文本到视频生成效果。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到视频生成 扩散模型 动态布局规划 内容控制 实体一致性

📋 核心要点

  1. 现有文本到视频生成方法难以处理多实体交互和精确时空关系,导致布局不连续和实体身份漂移。
  2. DyST-XL利用大型语言模型进行动态布局规划,并引入双提示控制注意力机制和实体一致性约束。
  3. 实验表明,DyST-XL显著提升了复杂文本提示下的视频生成质量,无需额外训练即可实现。
  4. DyST-XL通过帧感知控制增强现成的文本到视频模型,集成了三个关键创新:动态布局规划器,利用大型语言模型解析提示并生成物理感知的关键帧布局;双提示控制注意力机制,通过帧感知注意力掩码实现局部文本-视频对齐;实体一致性约束策略,在去噪过程中传播首帧特征嵌入以保持对象身份。实验表明,DyST-XL在组合文本到视频生成方面表现出色,显著提高了复杂提示下的性能。

📝 摘要(中文)

本文提出DyST-XL,一个训练自由的框架,旨在提升基于扩散模型的组合文本到视频生成效果。现有方法在处理多实体交互和精确时空关系时,面临布局不连续、实体身份漂移和不合理的交互动态等问题。DyST-XL通过帧感知控制增强现成的文本到视频模型(如CogVideoX-5B),集成了三个关键创新:动态布局规划器,利用大型语言模型解析提示并生成物理感知的关键帧布局;双提示控制注意力机制,通过帧感知注意力掩码实现局部文本-视频对齐;实体一致性约束策略,在去噪过程中传播首帧特征嵌入以保持对象身份。实验表明,DyST-XL在组合文本到视频生成方面表现出色,显著提高了复杂提示下的性能。

🔬 方法详解

问题定义:组合文本到视频生成任务需要合成具有多个交互实体和精确时空关系的动态场景。现有方法由于缺乏约束的交叉注意力机制和不足的物理感知推理,容易出现布局不连续、实体身份漂移以及不合理的交互动态等问题。这些问题限制了生成视频的真实性和可控性。

核心思路:DyST-XL的核心思路是通过解耦布局规划和内容生成,并引入显式的时空约束和实体一致性约束,从而提高生成视频的质量和可控性。该方法利用大型语言模型进行场景理解和布局规划,并设计了专门的注意力机制和特征传播策略来保证实体的一致性。

技术框架:DyST-XL框架包含三个主要模块:1) 动态布局规划器:利用大型语言模型将输入提示解析为实体-属性图,并生成物理感知的关键帧布局,中间帧通过轨迹优化进行插值。2) 双提示控制注意力机制:通过帧感知的注意力掩码,强制执行局部文本-视频对齐,实现对单个实体的精确控制。3) 实体一致性约束策略:在去噪过程中,将第一帧的特征嵌入传播到后续帧,从而在没有手动标注的情况下保持对象身份。

关键创新:DyST-XL的关键创新在于其训练自由的特性,以及动态布局规划、双提示控制注意力机制和实体一致性约束的结合。与需要大量训练数据的方法不同,DyST-XL可以直接应用于现成的文本到视频模型,并显著提高其性能。动态布局规划器利用大型语言模型进行场景理解,双提示控制注意力机制实现了对单个实体的精确控制,实体一致性约束策略保证了视频中实体身份的稳定性。

关键设计:动态布局规划器使用LLM进行场景解析和关键帧布局生成,轨迹优化算法用于生成中间帧。双提示控制注意力机制通过注意力掩码实现局部文本-视频对齐。实体一致性约束策略通过在扩散模型的去噪过程中,将第一帧的特征嵌入传播到后续帧来实现。具体参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DyST-XL在组合文本到视频生成方面表现出色,显著提高了复杂提示下的性能。由于论文中没有给出具体的性能数据和对比基线,因此无法量化提升幅度。但论文强调,DyST-XL无需额外训练即可实现性能提升,这使其具有很强的实用价值。

🎯 应用场景

DyST-XL在电影制作、游戏开发、广告设计等领域具有广泛的应用前景。它可以帮助用户快速生成高质量的视频内容,降低视频制作的门槛。未来,该技术可以进一步扩展到交互式视频生成、虚拟现实等领域,为用户提供更加丰富和个性化的体验。

📄 摘要(原文)

Compositional text-to-video generation, which requires synthesizing dynamic scenes with multiple interacting entities and precise spatial-temporal relationships, remains a critical challenge for diffusion-based models. Existing methods struggle with layout discontinuity, entity identity drift, and implausible interaction dynamics due to unconstrained cross-attention mechanisms and inadequate physics-aware reasoning. To address these limitations, we propose DyST-XL, a \textbf{training-free} framework that enhances off-the-shelf text-to-video models (e.g., CogVideoX-5B) through frame-aware control. DyST-XL integrates three key innovations: (1) A Dynamic Layout Planner that leverages large language models (LLMs) to parse input prompts into entity-attribute graphs and generates physics-aware keyframe layouts, with intermediate frames interpolated via trajectory optimization; (2) A Dual-Prompt Controlled Attention Mechanism that enforces localized text-video alignment through frame-aware attention masking, achieving precise control over individual entities; and (3) An Entity-Consistency Constraint strategy that propagates first-frame feature embeddings to subsequent frames during denoising, preserving object identity without manual annotation. Experiments demonstrate that DyST-XL excels in compositional text-to-video generation, significantly improving performance on complex prompts and bridging a crucial gap in training-free video synthesis. The code is released in https://github.com/XiaoBuL/DyST-XL.