Hierarchical Vector-Quantized Latents for Perceptual Low-Resolution Video Compression

📄 arXiv: 2512.24547v1 📥 PDF

作者: Manikanta Kotthapalli, Banafsheh Rekabdar

分类: cs.CV

发布日期: 2025-12-31

备注: 11 pages


💡 一句话要点

提出一种分层矢量量化隐变量的感知低分辨率视频压缩方法,适用于带宽受限场景。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频压缩 矢量量化 变分自编码器 低分辨率视频 分层隐变量 感知损失 边缘计算

📋 核心要点

  1. 现有视频编解码器主要面向像素域重建,缺乏对机器学习友好的隐变量表示,限制了其在深度学习中的应用。
  2. 提出一种多尺度矢量量化变分自编码器,通过分层隐变量结构生成紧凑、高保真视频表示,适用于边缘设备。
  3. 实验表明,该模型在UCF101数据集上取得了良好的PSNR和SSIM指标,优于单尺度基线模型。

📝 摘要(中文)

视频流量的指数增长对带宽和存储基础设施提出了更高的要求,尤其是在内容分发网络(CDN)和边缘设备方面。传统的视频编解码器(如H.264和HEVC)虽然实现了高压缩比,但它们主要为像素域重建而设计,缺乏对机器学习中心隐变量表示的原生支持,限制了它们与深度学习管道的集成。本文提出了一种多尺度矢量量化变分自编码器(MS-VQ-VAE),旨在生成低分辨率视频的紧凑、高保真隐变量表示,适用于高效存储、传输和客户端解码。该架构将VQ-VAE-2框架扩展到时空环境,引入了一个由3D残差卷积构建的两层分层隐变量结构。该模型轻量级(约1850万参数),并针对64x64分辨率的视频片段进行了优化,使其适合部署在计算和内存资源受限的边缘设备上。为了提高感知重建质量,我们结合了从预训练的VGG16网络中提取的感知损失。在UCF101数据集上使用2秒视频片段(32帧,16 FPS)进行训练,在测试集上我们实现了25.96 dB PSNR和0.8375 SSIM。在验证集上,我们的模型比单尺度基线提高了1.41 dB PSNR和0.0248 SSIM。所提出的框架非常适合带宽敏感场景中的可扩展视频压缩,包括实时流媒体、移动视频分析和CDN级别的存储优化。

🔬 方法详解

问题定义:论文旨在解决低分辨率视频压缩问题,特别是在带宽受限的边缘设备和内容分发网络(CDN)等场景下。现有视频编解码器(如H.264和HEVC)虽然压缩率高,但主要针对像素域重建,与深度学习模型的集成存在困难,无法直接提供适用于机器学习任务的隐变量表示。

核心思路:论文的核心思路是利用矢量量化变分自编码器(VQ-VAE)学习视频数据的紧凑、高保真隐变量表示。通过分层结构,模型能够捕捉不同尺度的时空特征,从而更好地重建视频。此外,引入感知损失函数,使重建视频在感知上更接近原始视频,提高视觉质量。

技术框架:整体架构是一个多尺度矢量量化变分自编码器(MS-VQ-VAE),包含编码器、量化器和解码器三个主要模块。编码器将输入视频帧序列编码成一系列隐变量表示。量化器将连续的隐变量离散化为有限的码本索引。解码器根据码本索引重建视频帧序列。该架构采用两层分层结构,分别提取不同尺度的特征。

关键创新:主要创新点在于将VQ-VAE-2框架扩展到时空视频领域,并引入分层隐变量结构。这种分层结构能够捕捉不同尺度的时空信息,从而更好地表示视频内容。此外,结合感知损失函数,优化了重建视频的感知质量。

关键设计:模型使用3D残差卷积来提取时空特征。量化器使用可学习的码本,将连续的隐变量离散化。感知损失函数基于预训练的VGG16网络提取的特征图计算。模型针对64x64分辨率的视频片段进行了优化,使用Adam优化器进行训练。

🖼️ 关键图片

fig_0
fig_1
img_2

📊 实验亮点

实验结果表明,该模型在UCF101数据集上取得了良好的性能。在测试集上,PSNR达到25.96 dB,SSIM达到0.8375。在验证集上,相比于单尺度基线模型,PSNR提高了1.41 dB,SSIM提高了0.0248。这些结果表明,该模型能够有效地压缩低分辨率视频,并保持较高的重建质量。

🎯 应用场景

该研究成果可应用于多种带宽敏感的场景,例如实时视频流媒体、移动视频分析、CDN级别的存储优化以及边缘计算设备上的视频处理。通过高效的视频压缩和高质量的重建,可以降低带宽需求,提高用户体验,并为各种视频分析任务提供更有效的输入。

📄 摘要(原文)

The exponential growth of video traffic has placed increasing demands on bandwidth and storage infrastructure, particularly for content delivery networks (CDNs) and edge devices. While traditional video codecs like H.264 and HEVC achieve high compression ratios, they are designed primarily for pixel-domain reconstruction and lack native support for machine learning-centric latent representations, limiting their integration into deep learning pipelines. In this work, we present a Multi-Scale Vector Quantized Variational Autoencoder (MS-VQ-VAE) designed to generate compact, high-fidelity latent representations of low-resolution video, suitable for efficient storage, transmission, and client-side decoding. Our architecture extends the VQ-VAE-2 framework to a spatiotemporal setting, introducing a two-level hierarchical latent structure built with 3D residual convolutions. The model is lightweight (approximately 18.5M parameters) and optimized for 64x64 resolution video clips, making it appropriate for deployment on edge devices with constrained compute and memory resources. To improve perceptual reconstruction quality, we incorporate a perceptual loss derived from a pre-trained VGG16 network. Trained on the UCF101 dataset using 2-second video clips (32 frames at 16 FPS), on the test set we achieve 25.96 dB PSNR and 0.8375 SSIM. On validation, our model improves over the single-scale baseline by 1.41 dB PSNR and 0.0248 SSIM. The proposed framework is well-suited for scalable video compression in bandwidth-sensitive scenarios, including real-time streaming, mobile video analytics, and CDN-level storage optimization.