VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
作者: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
分类: cs.CV
发布日期: 2025-10-09
备注: Project page: https://onevfall.github.io/project_page/videocanvas
💡 一句话要点
VideoCanvas:通过上下文条件反射实现任意时空补丁的统一视频补全
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频补全 视频生成 扩散模型 时空控制 上下文条件反射
📋 核心要点
- 现有潜在视频扩散模型受因果VAE时间模糊性限制,难以实现精确的帧级别控制,阻碍了任意时空视频补全任务。
- VideoCanvas通过引入混合条件反射策略,解耦空间和时间控制,利用时间RoPE插值实现帧级别的时间对齐。
- VideoCanvas在VideoCanvasBench上显著优于现有方法,为灵活和统一的视频生成建立了新的技术水平。
📝 摘要(中文)
本文提出了一种任意时空视频补全任务,即从任意的、用户指定的、放置在任何空间位置和时间戳的补丁生成视频,类似于在视频画布上绘画。这种灵活的公式自然地将许多现有的可控视频生成任务——包括首帧图像到视频、图像修复、视频扩展和视频插值——统一在一个单一的、有凝聚力的范例下。然而,实现这一愿景面临着现代潜在视频扩散模型中的一个根本障碍:因果VAE引入的时间模糊性,其中多个像素帧被压缩成单个潜在表示,使得精确的帧级别条件反射在结构上变得困难。我们用VideoCanvas解决了这个挑战,这是一个新颖的框架,它将上下文条件反射(ICC)范例应用于这个细粒度控制任务,而无需任何新的参数。我们提出了一种混合条件反射策略,将空间和时间控制解耦:空间放置通过零填充处理,而时间对齐通过时间RoPE插值实现,这为每个条件分配了潜在序列中的连续分数位置。这解决了VAE的时间模糊性,并实现了对冻结骨干网络的像素帧感知控制。为了评估这种新能力,我们开发了VideoCanvasBench,这是第一个用于任意时空视频补全的基准,涵盖了场景内保真度和场景间创造力。实验表明,VideoCanvas显著优于现有的条件反射范例,在灵活和统一的视频生成方面建立了新的技术水平。
🔬 方法详解
问题定义:论文旨在解决任意时空视频补全问题,即用户可以在视频的任意位置和时间点指定内容,然后模型生成完整的视频。现有方法,特别是基于因果VAE的视频扩散模型,由于时间模糊性,难以实现这种细粒度的控制。多个帧被压缩到单个潜在表示中,使得精确的帧级别条件反射变得困难。
核心思路:论文的核心思路是将In-Context Conditioning (ICC)范例应用于细粒度的视频控制任务,并设计一种混合条件反射策略,将空间和时间控制解耦。通过这种方式,可以解决因果VAE引入的时间模糊性,并实现对视频帧的精确控制。
技术框架:VideoCanvas框架主要包含以下几个部分:首先,利用零填充处理空间位置信息,将用户指定的补丁放置在视频画布的相应位置。其次,使用Temporal RoPE Interpolation(时间RoPE插值)实现时间对齐,为每个条件分配潜在序列中的连续分数位置。最后,利用冻结的视频扩散模型骨干网络进行视频生成。整个框架无需引入新的参数。
关键创新:VideoCanvas的关键创新在于其混合条件反射策略,它将空间和时间控制解耦,并利用时间RoPE插值实现精确的时间对齐。这种方法解决了因果VAE的时间模糊性问题,使得在冻结的视频扩散模型上进行细粒度的视频控制成为可能。与现有方法相比,VideoCanvas能够处理任意时空位置的补丁,实现了更灵活的视频生成。
关键设计:在空间控制方面,采用零填充的方式将用户指定的补丁嵌入到视频画布中。在时间控制方面,使用Temporal RoPE Interpolation,为每个条件分配一个连续的分数位置,从而实现精确的时间对齐。具体来说,RoPE (Rotary Position Embedding) 被用于编码时间位置信息,并通过插值的方式将条件信息嵌入到潜在空间中。损失函数方面,论文沿用了扩散模型的标准损失函数,没有进行额外的修改。
📊 实验亮点
实验结果表明,VideoCanvas在任意时空视频补全任务上显著优于现有的条件反射范例。在VideoCanvasBench基准测试中,VideoCanvas在场景内保真度和场景间创造力方面都取得了显著的提升,建立了新的技术水平。具体的性能数据和对比基线信息在论文中进行了详细的展示。
🎯 应用场景
VideoCanvas具有广泛的应用前景,包括视频编辑、特效制作、内容创作等领域。它可以用于修复损坏的视频片段、扩展现有视频内容、生成新的视频场景等。该技术可以极大地提高视频创作的效率和灵活性,为用户提供更强大的视频编辑工具。未来,该技术有望应用于虚拟现实、增强现实等新兴领域,为用户提供更加沉浸式的视频体验。
📄 摘要(原文)
We introduce the task of arbitrary spatio-temporal video completion, where a video is generated from arbitrary, user-specified patches placed at any spatial location and timestamp, akin to painting on a video canvas. This flexible formulation naturally unifies many existing controllable video generation tasks--including first-frame image-to-video, inpainting, extension, and interpolation--under a single, cohesive paradigm. Realizing this vision, however, faces a fundamental obstacle in modern latent video diffusion models: the temporal ambiguity introduced by causal VAEs, where multiple pixel frames are compressed into a single latent representation, making precise frame-level conditioning structurally difficult. We address this challenge with VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC) paradigm to this fine-grained control task with zero new parameters. We propose a hybrid conditioning strategy that decouples spatial and temporal control: spatial placement is handled via zero-padding, while temporal alignment is achieved through Temporal RoPE Interpolation, which assigns each condition a continuous fractional position within the latent sequence. This resolves the VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen backbone. To evaluate this new capability, we develop VideoCanvasBench, the first benchmark for arbitrary spatio-temporal video completion, covering both intra-scene fidelity and inter-scene creativity. Experiments demonstrate that VideoCanvas significantly outperforms existing conditioning paradigms, establishing a new state of the art in flexible and unified video generation.