PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

作者: Xiaofeng Mao, Shaohao Rui, Kaining Ying, Bo Zheng, Chuanhao Li, Mingmin Chi, Kaipeng Zhang

分类: cs.CV, cs.AI

发布日期: 2026-03-26

🔗 代码/项目: GITHUB

💡 一句话要点

PackForcing：利用短视频训练实现长视频采样和长上下文推理

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 长视频生成 视频扩散模型 KV-cache压缩 时间一致性 上下文管理 短视频训练 自回归模型

📋 核心要点

长视频生成面临KV-cache线性增长、时间重复和误差累积等挑战，限制了生成视频的长度和质量。
PackForcing通过三分区KV-cache策略，有效管理生成历史，实现时空压缩和上下文选择，降低内存占用。
实验表明，PackForcing仅用短视频训练即可生成高质量长视频，并在时间一致性和动态度上达到SOTA。

📝 摘要（中文）

自回归视频扩散模型取得了显著进展，但仍受限于难以处理的线性KV-cache增长、时间重复以及长视频生成过程中的误差累积。为了解决这些挑战，我们提出了PackForcing，一个统一的框架，通过一种新颖的三分区KV-cache策略来有效地管理生成历史。具体来说，我们将历史上下文分为三种不同的类型：（1）Sink tokens，以全分辨率保留早期的锚帧，以维持全局语义；（2）Mid tokens，通过双分支网络融合渐进式3D卷积与低分辨率VAE重编码，实现大规模的时空压缩（32倍的token减少）；（3）Recent tokens，以全分辨率保存，以确保局部时间连贯性。为了在不牺牲质量的前提下严格限制内存占用，我们为mid tokens引入了一种动态的top-$k$上下文选择机制，并结合了连续的时间RoPE调整，从而无缝地重新对齐因丢弃token而导致的位置间隙，且开销可忽略不计。借助这种有原则的分层上下文压缩，PackForcing可以在单个H200 GPU上以16 FPS生成连贯的2分钟、832x480视频。它实现了仅4 GB的有界KV缓存，并实现了显著的24倍时间外推（从5秒到120秒），无论是在零样本情况下还是仅在5秒片段上训练，都能有效地运行。在VBench上的大量结果表明，其具有最先进的时间一致性（26.07）和动态度（56.25），证明了短视频监督足以实现高质量的长视频合成。

🔬 方法详解

问题定义：论文旨在解决自回归视频扩散模型在生成长视频时面临的三个主要问题：一是KV-cache随着视频长度线性增长，导致内存占用过高；二是容易出现时间上的重复，影响视频质量；三是生成过程中误差会不断累积，导致视频内容不连贯。现有方法难以在保证视频质量的同时，有效地控制内存消耗和避免时间重复。

核心思路：PackForcing的核心思路是通过一种新颖的三分区KV-cache策略，对历史上下文进行分层压缩和选择性保留。具体来说，将历史上下文分为Sink tokens（保留全局语义）、Mid tokens（进行时空压缩）和Recent tokens（保持局部连贯性）三种类型，并针对不同类型的token采用不同的处理方式，从而在保证视频质量的同时，显著降低内存占用。

技术框架：PackForcing的整体框架包含以下几个主要模块：1) Sink Tokens：保留早期锚帧，维护全局语义。2) Mid Tokens：通过双分支网络（渐进式3D卷积和低分辨率VAE重编码）进行时空压缩。3) Recent Tokens：保持全分辨率，确保局部时间连贯性。4) 动态Top-$k$上下文选择：针对Mid tokens，动态选择最重要的上下文信息。5) 连续时间RoPE调整：对因丢弃token导致的位置间隙进行重新对齐。

关键创新：PackForcing的关键创新在于其三层结构的KV-cache管理策略，以及动态Top-$k$上下文选择和连续时间RoPE调整机制。与现有方法相比，PackForcing能够更有效地压缩和管理历史上下文，从而在保证视频质量的同时，显著降低内存占用，并实现更长时间的视频生成。此外，PackForcing仅需短视频训练即可实现长视频生成，大大降低了训练成本。

关键设计：1) 双分支网络：Mid tokens的时空压缩采用双分支网络，分别利用3D卷积提取时空特征，并利用VAE进行低分辨率重编码。2) 动态Top-$k$选择：根据token的重要性动态选择Top-$k$个Mid tokens，以进一步降低内存占用。3) 连续时间RoPE调整：通过调整RoPE（Rotary Position Embedding）的位置编码，来补偿因丢弃token而导致的位置信息损失。4) 损失函数：采用标准的扩散模型训练损失函数，并针对长视频生成进行了一些微调。

🖼️ 关键图片

📊 实验亮点

PackForcing在VBench数据集上取得了显著的实验结果。在时间一致性方面，PackForcing达到了26.07，优于现有方法。在动态度方面，PackForcing达到了56.25，同样优于现有方法。此外，PackForcing能够在单个H200 GPU上以16 FPS生成连贯的2分钟、832x480视频，并实现了24倍的时间外推（从5秒到120秒），证明了其在长视频生成方面的优越性能。

🎯 应用场景

PackForcing在视频生成领域具有广泛的应用前景，例如电影制作、游戏开发、虚拟现实等。它可以用于生成高质量、长时间的视频内容，并降低视频制作的成本和门槛。此外，PackForcing还可以应用于视频编辑、视频修复等领域，提升视频处理的效率和质量。该研究的突破将推动视频生成技术的发展，并为相关产业带来新的机遇。

📄 摘要（原文）

Autoregressive video diffusion models have demonstrated remarkable progress, yet they remain bottlenecked by intractable linear KV-cache growth, temporal repetition, and compounding errors during long-video generation. To address these challenges, we present PackForcing, a unified framework that efficiently manages the generation history through a novel three-partition KV-cache strategy. Specifically, we categorize the historical context into three distinct types: (1) Sink tokens, which preserve early anchor frames at full resolution to maintain global semantics; (2) Mid tokens, which achieve a massive spatiotemporal compression (32x token reduction) via a dual-branch network fusing progressive 3D convolutions with low-resolution VAE re-encoding; and (3) Recent tokens, kept at full resolution to ensure local temporal coherence. To strictly bound the memory footprint without sacrificing quality, we introduce a dynamic top-$k$ context selection mechanism for the mid tokens, coupled with a continuous Temporal RoPE Adjustment that seamlessly re-aligns position gaps caused by dropped tokens with negligible overhead. Empowered by this principled hierarchical context compression, PackForcing can generate coherent 2-minute, 832x480 videos at 16 FPS on a single H200 GPU. It achieves a bounded KV cache of just 4 GB and enables a remarkable 24x temporal extrapolation (5s to 120s), operating effectively either zero-shot or trained on merely 5-second clips. Extensive results on VBench demonstrate state-of-the-art temporal consistency (26.07) and dynamic degree (56.25), proving that short-video supervision is sufficient for high-quality, long-video synthesis. https://github.com/ShandaAI/PackForcing

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理