Plan-X: Instruct Video Generation via Semantic Planning

作者: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro

分类: cs.CV, cs.AI

发布日期: 2025-11-22

备注: The project page is at https://byteaigc.github.io/Plan-X

💡 一句话要点

Plan-X通过语义规划指导视频生成，显著减少视觉幻觉并提升指令对齐。

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 视频生成 语义规划 扩散模型 多模态学习 指令对齐

📋 核心要点

现有视频生成模型在高层次语义推理和长程规划方面存在不足，易产生视觉幻觉和指令不对齐。
Plan-X通过引入语义规划器，利用多模态语言模型生成时空语义token，指导视频扩散模型生成。
实验结果表明，Plan-X能有效减少视觉幻觉，生成与指令和多模态上下文对齐的细粒度视频。

📝 摘要（中文）

扩散Transformer在视觉合成方面表现出卓越的能力，但它们在高层次语义推理和长程规划方面常常遇到困难。这种局限性经常导致视觉幻觉以及与用户指令的不对齐，尤其是在涉及复杂场景理解、人-物交互、多阶段动作和上下文运动推理的场景中。为了应对这些挑战，我们提出了Plan-X，一个显式地执行高层次语义规划以指导视频生成过程的框架。其核心是一个语义规划器，一个可学习的多模态语言模型，它基于文本提示和视觉上下文来推理用户的意图，并自回归地生成一系列文本相关的时空语义token。这些语义token作为高层次文本提示指导的补充，为视频扩散模型提供随时间变化的结构化“语义草图”，而视频扩散模型擅长合成高保真视觉细节。Plan-X有效地整合了语言模型在多模态上下文推理和规划方面的优势，以及扩散模型在照片级真实感视频合成方面的优势。大量的实验表明，我们的框架大大减少了视觉幻觉，并实现了与多模态上下文一致的细粒度、指令对齐的视频生成。

🔬 方法详解

问题定义：现有基于扩散Transformer的视频生成方法在高层次语义理解和长程规划方面存在困难，导致生成的视频内容与用户指令不符，容易出现视觉幻觉，尤其是在复杂场景和多步骤动作中。现有方法缺乏对视频内容的时空结构化理解和规划能力。

核心思路：Plan-X的核心思路是引入一个语义规划器，该规划器能够理解用户输入的文本提示和视觉上下文，并生成一系列时空语义token。这些token可以看作是对视频内容的“语义草图”，为后续的视频扩散模型提供结构化的指导，从而保证生成视频的内容与用户意图对齐，并减少视觉幻觉。

技术框架：Plan-X框架主要包含两个核心模块：语义规划器和视频扩散模型。语义规划器是一个可学习的多模态语言模型，它接收文本提示和视觉上下文作为输入，自回归地生成一系列时空语义token。这些token随后被输入到视频扩散模型中，作为额外的条件信息，指导视频的生成过程。视频扩散模型负责将这些语义token转化为高保真度的视觉内容。

关键创新：Plan-X的关键创新在于引入了语义规划器，将高层次的语义推理和规划与底层的视觉合成解耦。语义规划器负责理解用户意图并生成结构化的语义表示，而视频扩散模型则负责将这些语义表示转化为视觉内容。这种解耦使得模型能够更好地控制视频的生成过程，并减少视觉幻觉。与现有方法相比，Plan-X能够更好地理解用户指令，并生成与指令对齐的视频内容。

关键设计：语义规划器采用Transformer架构，并使用多模态数据进行训练，使其能够理解文本提示和视觉上下文。时空语义token的设计需要能够有效地表示视频内容的关键信息，例如场景中的物体、人物动作和物体之间的交互关系。视频扩散模型可以使用现有的预训练模型，并进行微调，使其能够更好地利用语义规划器提供的条件信息。损失函数的设计需要能够保证生成的视频内容与用户指令对齐，并具有较高的视觉质量。

📊 实验亮点

实验结果表明，Plan-X在视频生成质量和指令对齐方面均优于现有方法。通过定量评估和人工评估，Plan-X显著减少了视觉幻觉，并生成了与用户指令更加一致的视频内容。例如，在复杂场景和多步骤动作的生成任务中，Plan-X的性能提升尤为明显。

🎯 应用场景

Plan-X可应用于多种视频生成场景，例如根据文本描述生成电影片段、根据故事梗概生成动画短片、根据用户指令编辑现有视频等。该技术在娱乐、教育、广告等领域具有广泛的应用前景，能够降低视频制作的门槛，并提高视频内容的创作效率。

📄 摘要（原文）

Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.

Plan-X: Instruct Video Generation via Semantic Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册