Plan-X: Instruct Video Generation via Semantic Planning

📄 arXiv: 2511.17986v1 📥 PDF

作者: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro

分类: cs.CV, cs.AI

发布日期: 2025-11-22

备注: The project page is at https://byteaigc.github.io/Plan-X


💡 一句话要点

Plan-X通过语义规划指导视频生成,显著减少视觉幻觉并提升指令对齐。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 视频生成 语义规划 扩散模型 多模态学习 指令对齐

📋 核心要点

  1. 现有视频生成模型在高层次语义推理和长程规划方面存在不足,易产生视觉幻觉和指令不对齐。
  2. Plan-X通过引入语义规划器,利用多模态语言模型生成时空语义token,指导视频扩散模型生成。
  3. 实验结果表明,Plan-X能有效减少视觉幻觉,生成与指令和多模态上下文对齐的细粒度视频。

📝 摘要(中文)

扩散Transformer在视觉合成方面表现出卓越的能力,但它们在高层次语义推理和长程规划方面常常遇到困难。这种局限性经常导致视觉幻觉以及与用户指令的不对齐,尤其是在涉及复杂场景理解、人-物交互、多阶段动作和上下文运动推理的场景中。为了应对这些挑战,我们提出了Plan-X,一个显式地执行高层次语义规划以指导视频生成过程的框架。其核心是一个语义规划器,一个可学习的多模态语言模型,它基于文本提示和视觉上下文来推理用户的意图,并自回归地生成一系列文本相关的时空语义token。这些语义token作为高层次文本提示指导的补充,为视频扩散模型提供随时间变化的结构化“语义草图”,而视频扩散模型擅长合成高保真视觉细节。Plan-X有效地整合了语言模型在多模态上下文推理和规划方面的优势,以及扩散模型在照片级真实感视频合成方面的优势。大量的实验表明,我们的框架大大减少了视觉幻觉,并实现了与多模态上下文一致的细粒度、指令对齐的视频生成。

🔬 方法详解

问题定义:现有基于扩散Transformer的视频生成方法在高层次语义理解和长程规划方面存在困难,导致生成的视频内容与用户指令不符,容易出现视觉幻觉,尤其是在复杂场景和多步骤动作中。现有方法缺乏对视频内容的时空结构化理解和规划能力。

核心思路:Plan-X的核心思路是引入一个语义规划器,该规划器能够理解用户输入的文本提示和视觉上下文,并生成一系列时空语义token。这些token可以看作是对视频内容的“语义草图”,为后续的视频扩散模型提供结构化的指导,从而保证生成视频的内容与用户意图对齐,并减少视觉幻觉。

技术框架:Plan-X框架主要包含两个核心模块:语义规划器和视频扩散模型。语义规划器是一个可学习的多模态语言模型,它接收文本提示和视觉上下文作为输入,自回归地生成一系列时空语义token。这些token随后被输入到视频扩散模型中,作为额外的条件信息,指导视频的生成过程。视频扩散模型负责将这些语义token转化为高保真度的视觉内容。

关键创新:Plan-X的关键创新在于引入了语义规划器,将高层次的语义推理和规划与底层的视觉合成解耦。语义规划器负责理解用户意图并生成结构化的语义表示,而视频扩散模型则负责将这些语义表示转化为视觉内容。这种解耦使得模型能够更好地控制视频的生成过程,并减少视觉幻觉。与现有方法相比,Plan-X能够更好地理解用户指令,并生成与指令对齐的视频内容。

关键设计:语义规划器采用Transformer架构,并使用多模态数据进行训练,使其能够理解文本提示和视觉上下文。时空语义token的设计需要能够有效地表示视频内容的关键信息,例如场景中的物体、人物动作和物体之间的交互关系。视频扩散模型可以使用现有的预训练模型,并进行微调,使其能够更好地利用语义规划器提供的条件信息。损失函数的设计需要能够保证生成的视频内容与用户指令对齐,并具有较高的视觉质量。

📊 实验亮点

实验结果表明,Plan-X在视频生成质量和指令对齐方面均优于现有方法。通过定量评估和人工评估,Plan-X显著减少了视觉幻觉,并生成了与用户指令更加一致的视频内容。例如,在复杂场景和多步骤动作的生成任务中,Plan-X的性能提升尤为明显。

🎯 应用场景

Plan-X可应用于多种视频生成场景,例如根据文本描述生成电影片段、根据故事梗概生成动画短片、根据用户指令编辑现有视频等。该技术在娱乐、教育、广告等领域具有广泛的应用前景,能够降低视频制作的门槛,并提高视频内容的创作效率。

📄 摘要(原文)

Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.