Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow
作者: Ziyue Zeng, Xun Su, Haoyuan Liu, Bingyu Lu, Yui Tatsumi, Hiroshi Watanabe
分类: cs.CV, cs.AI
发布日期: 2026-03-27
备注: 9 pages, 3 figures
💡 一句话要点
提出生成式视频编解码器GVC,实现零样本视频编码,提升压缩效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频编码 生成模型 零样本学习 随机微分方程 视频生成 压缩算法 神经编解码器
📋 核心要点
- 现有生成式视频压缩方法仅将生成模型作为传统编解码器之上的后处理重建模块,效率受限。
- GVC将预训练视频生成模型转化为编解码器本身,通过比特流直接控制生成解码轨迹,无需额外训练。
- 实验表明,GVC在极低码率下实现了高质量视频重建,并通过单一超参数实现了灵活的码率控制。
📝 摘要(中文)
本文提出了一种名为“生成式视频编解码器”(GVC)的零样本框架,该框架将预训练的视频生成模型直接转化为编解码器本身。传输的比特流直接指定生成解码轨迹,无需重新训练。为了实现这一点,我们将现代视频基础模型的确定性修正流ODE在推理时转换为等效的SDE,从而为基于码本的压缩解锁了每步随机注入点。在此统一骨干网络的基础上,我们实例化了三种互补的条件策略——具有自适应尾帧原子分配的“图像到视频”(I2V)、以接近零的边信息作为纯生成先验运行的“文本到视频”(T2V)以及具有边界共享GOP链接的“首尾帧到视频”(FLF2V),用于双锚时间控制。这些变体共同跨越了空间保真度、时间连贯性和压缩效率之间的原则性权衡空间。在标准基准上的实验表明,GVC在低于0.002 bpp的情况下实现了高质量的重建,同时支持通过单个超参数进行灵活的比特率控制。
🔬 方法详解
问题定义:现有生成式视频压缩方法依赖于传统编解码器进行初步压缩,然后使用生成模型进行后处理重建,这种方式无法充分利用生成模型的潜力,且需要额外的训练和优化。因此,如何直接利用预训练的生成模型进行高效的视频压缩,避免额外的训练开销,是本文要解决的核心问题。
核心思路:本文的核心思路是将预训练的视频生成模型转化为一个编解码器,通过控制生成模型的解码轨迹来实现视频压缩。具体来说,通过将确定性的修正流ODE转换为等效的随机微分方程SDE,引入随机注入点,并利用码本驱动的压缩方法,将比特流直接映射到生成模型的解码过程,从而实现零样本的视频编码。
技术框架:GVC框架主要包含以下几个关键模块:1) 预训练的视频生成模型,作为编解码器的核心;2) 将确定性ODE转换为随机SDE的模块,用于引入随机性;3) 基于码本的压缩模块,用于将比特流映射到SDE的随机注入点;4) 三种条件策略(I2V、T2V、FLF2V),用于控制生成过程,平衡空间保真度、时间连贯性和压缩效率。整体流程为:输入视频 -> 编码器(将视频信息编码为比特流,控制SDE的随机注入点) -> 解码器(基于预训练的生成模型和接收到的比特流,生成视频)。
关键创新:GVC最重要的技术创新在于将预训练的视频生成模型直接转化为编解码器,实现了零样本的视频编码。与现有方法相比,GVC无需额外的训练,可以直接利用现有的视频生成模型进行压缩,大大降低了开发成本和计算资源需求。此外,通过将ODE转换为SDE,引入随机注入点,并结合码本驱动的压缩方法,实现了高效的比特流控制,从而在空间保真度、时间连贯性和压缩效率之间取得了更好的平衡。
关键设计:GVC的关键设计包括:1) 将确定性ODE转换为随机SDE的具体方法,例如选择合适的噪声注入策略;2) 码本的设计,如何将比特流有效地映射到SDE的随机注入点;3) 三种条件策略(I2V、T2V、FLF2V)的具体实现,例如I2V中自适应尾帧原子分配的策略,T2V中如何利用文本信息作为生成先验,FLF2V中如何实现边界共享GOP链接。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GVC在标准基准测试中,能够在低于0.002 bpp的极低码率下实现高质量的视频重建。此外,GVC通过单个超参数即可实现灵活的码率控制,方便用户根据实际需求进行调整。相较于传统的视频编码方法,GVC在压缩效率和重建质量方面均有显著提升。
🎯 应用场景
GVC具有广泛的应用前景,例如在视频会议、流媒体服务、远程监控等领域,可以实现低带宽下的高质量视频传输。此外,GVC的零样本特性使其能够快速适应不同的视频内容和应用场景,降低了部署成本。未来,GVC有望成为下一代视频编码标准的重要组成部分。
📄 摘要(原文)
Existing generative video compression methods use generative models only as post-hoc reconstruction modules atop conventional codecs. We propose \emph{Generative Video Codec} (GVC), a zero-shot framework that turns a pretrained video generative model into the codec itself: the transmitted bitstream directly specifies the generative decoding trajectory, with no retraining required. To enable this, we convert the deterministic rectified-flow ODE of modern video foundation models into an equivalent SDE at inference time, unlocking per-step stochastic injection points for codebook-driven compression. Building on this unified backbone, we instantiate three complementary conditioning strategies -- \emph{Image-to-Video} (I2V) with adaptive tail-frame atom allocation, \emph{Text-to-Video} (T2V) operating at near-zero side information as a pure generative prior, and \emph{First-Last-Frame-to-Video} (FLF2V) with boundary-sharing GOP chaining for dual-anchor temporal control. Together, these variants span a principled trade-off space between spatial fidelity, temporal coherence, and compression efficiency. Experiments on standard benchmarks show that GVC achieves high-quality reconstruction below 0.002\,bpp while supporting flexible bitrate control through a single hyperparameter.