VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

作者: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue

分类: cs.CV

发布日期: 2025-10-09

备注: Project page: https://onevfall.github.io/project_page/videocanvas

💡 一句话要点

VideoCanvas：通过上下文条件反射实现任意时空补丁的统一视频补全

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 视频补全 视频生成 扩散模型 时空控制 上下文条件反射

📋 核心要点

现有潜在视频扩散模型受因果VAE时间模糊性限制，难以实现精确的帧级别控制，阻碍了任意时空视频补全任务。
VideoCanvas通过引入混合条件反射策略，解耦空间和时间控制，利用时间RoPE插值实现帧级别的时间对齐。
VideoCanvas在VideoCanvasBench上显著优于现有方法，为灵活和统一的视频生成建立了新的技术水平。

📝 摘要（中文）

本文提出了一种任意时空视频补全任务，即从任意的、用户指定的、放置在任何空间位置和时间戳的补丁生成视频，类似于在视频画布上绘画。这种灵活的公式自然地将许多现有的可控视频生成任务——包括首帧图像到视频、图像修复、视频扩展和视频插值——统一在一个单一的、有凝聚力的范例下。然而，实现这一愿景面临着现代潜在视频扩散模型中的一个根本障碍：因果VAE引入的时间模糊性，其中多个像素帧被压缩成单个潜在表示，使得精确的帧级别条件反射在结构上变得困难。我们用VideoCanvas解决了这个挑战，这是一个新颖的框架，它将上下文条件反射（ICC）范例应用于这个细粒度控制任务，而无需任何新的参数。我们提出了一种混合条件反射策略，将空间和时间控制解耦：空间放置通过零填充处理，而时间对齐通过时间RoPE插值实现，这为每个条件分配了潜在序列中的连续分数位置。这解决了VAE的时间模糊性，并实现了对冻结骨干网络的像素帧感知控制。为了评估这种新能力，我们开发了VideoCanvasBench，这是第一个用于任意时空视频补全的基准，涵盖了场景内保真度和场景间创造力。实验表明，VideoCanvas显著优于现有的条件反射范例，在灵活和统一的视频生成方面建立了新的技术水平。

🔬 方法详解

问题定义：论文旨在解决任意时空视频补全问题，即用户可以在视频的任意位置和时间点指定内容，然后模型生成完整的视频。现有方法，特别是基于因果VAE的视频扩散模型，由于时间模糊性，难以实现这种细粒度的控制。多个帧被压缩到单个潜在表示中，使得精确的帧级别条件反射变得困难。

核心思路：论文的核心思路是将In-Context Conditioning (ICC)范例应用于细粒度的视频控制任务，并设计一种混合条件反射策略，将空间和时间控制解耦。通过这种方式，可以解决因果VAE引入的时间模糊性，并实现对视频帧的精确控制。

技术框架：VideoCanvas框架主要包含以下几个部分：首先，利用零填充处理空间位置信息，将用户指定的补丁放置在视频画布的相应位置。其次，使用Temporal RoPE Interpolation（时间RoPE插值）实现时间对齐，为每个条件分配潜在序列中的连续分数位置。最后，利用冻结的视频扩散模型骨干网络进行视频生成。整个框架无需引入新的参数。

关键创新：VideoCanvas的关键创新在于其混合条件反射策略，它将空间和时间控制解耦，并利用时间RoPE插值实现精确的时间对齐。这种方法解决了因果VAE的时间模糊性问题，使得在冻结的视频扩散模型上进行细粒度的视频控制成为可能。与现有方法相比，VideoCanvas能够处理任意时空位置的补丁，实现了更灵活的视频生成。

关键设计：在空间控制方面，采用零填充的方式将用户指定的补丁嵌入到视频画布中。在时间控制方面，使用Temporal RoPE Interpolation，为每个条件分配一个连续的分数位置，从而实现精确的时间对齐。具体来说，RoPE (Rotary Position Embedding) 被用于编码时间位置信息，并通过插值的方式将条件信息嵌入到潜在空间中。损失函数方面，论文沿用了扩散模型的标准损失函数，没有进行额外的修改。

📊 实验亮点

实验结果表明，VideoCanvas在任意时空视频补全任务上显著优于现有的条件反射范例。在VideoCanvasBench基准测试中，VideoCanvas在场景内保真度和场景间创造力方面都取得了显著的提升，建立了新的技术水平。具体的性能数据和对比基线信息在论文中进行了详细的展示。

🎯 应用场景

VideoCanvas具有广泛的应用前景，包括视频编辑、特效制作、内容创作等领域。它可以用于修复损坏的视频片段、扩展现有视频内容、生成新的视频场景等。该技术可以极大地提高视频创作的效率和灵活性，为用户提供更强大的视频编辑工具。未来，该技术有望应用于虚拟现实、增强现实等新兴领域，为用户提供更加沉浸式的视频体验。

📄 摘要（原文）

We introduce the task of arbitrary spatio-temporal video completion, where a video is generated from arbitrary, user-specified patches placed at any spatial location and timestamp, akin to painting on a video canvas. This flexible formulation naturally unifies many existing controllable video generation tasks--including first-frame image-to-video, inpainting, extension, and interpolation--under a single, cohesive paradigm. Realizing this vision, however, faces a fundamental obstacle in modern latent video diffusion models: the temporal ambiguity introduced by causal VAEs, where multiple pixel frames are compressed into a single latent representation, making precise frame-level conditioning structurally difficult. We address this challenge with VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC) paradigm to this fine-grained control task with zero new parameters. We propose a hybrid conditioning strategy that decouples spatial and temporal control: spatial placement is handled via zero-padding, while temporal alignment is achieved through Temporal RoPE Interpolation, which assigns each condition a continuous fractional position within the latent sequence. This resolves the VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen backbone. To evaluate this new capability, we develop VideoCanvasBench, the first benchmark for arbitrary spatio-temporal video completion, covering both intra-scene fidelity and inter-scene creativity. Experiments demonstrate that VideoCanvas significantly outperforms existing conditioning paradigms, establishing a new state of the art in flexible and unified video generation.

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册