HPC: Hierarchical Progressive Coding Framework for Volumetric Video

📄 arXiv: 2407.09026v2 📥 PDF

作者: Zihan Zheng, Houqiang Zhong, Qiang Hu, Xiaoyun Zhang, Li Song, Ya Zhang, Yanfeng Wang

分类: cs.CV, cs.LG, cs.MM, eess.IV

发布日期: 2024-07-12 (更新: 2024-08-03)

备注: 11 pages, 7 figures, ACM Multimedia 24

DOI: 10.1145/3664647.3681107


💡 一句话要点

提出HPC框架,以单模型实现神经辐射场体积视频的灵活可变码率压缩。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 体积视频 神经辐射场 可变码率压缩 分层编码 渐进学习

📋 核心要点

  1. 现有NeRF压缩方法缺乏灵活性,难以用单一模型调整视频质量和比特率,以适应不同网络和设备。
  2. HPC框架采用分层表示和多分辨率残差辐射场,在降低时间冗余的同时,生成不同细节层次的视频。
  3. HPC通过端到端渐进学习和多码率失真损失函数,仅需单次训练即可实现多种压缩级别,性能优于现有方法。

📝 摘要(中文)

本文提出了一种用于体积视频的分层渐进编码框架HPC,旨在解决基于神经辐射场(NeRF)的体积视频数据量大、压缩和传输困难的问题。HPC通过单一模型实现可变比特率,从而适应不同的网络和设备能力。该框架引入了具有多分辨率残差辐射场的分层表示,以减少长时间序列中的时间冗余,并生成不同细节层次。此外,本文还提出了一种端到端的渐进学习方法,利用多码率失真损失函数联合优化分层表示和压缩。HPC仅需训练一次即可实现多个压缩级别,而现有方法需要训练多个固定比特率模型以实现不同的率失真(RD)权衡。大量实验表明,HPC通过单一模型实现了灵活的质量级别和可变比特率,并表现出具有竞争力的RD性能,甚至优于各种数据集上的固定比特率模型。

🔬 方法详解

问题定义:现有的基于NeRF的体积视频压缩方法通常需要为每个目标码率训练一个独立的模型,这导致了巨大的计算开销和存储需求。此外,这些方法缺乏灵活性,难以根据不同的网络带宽和设备能力动态调整视频质量和比特率。因此,如何使用单一模型实现体积视频的可变码率压缩是一个重要的挑战。

核心思路:本文的核心思路是构建一个分层的、渐进式的体积视频表示,并设计相应的编码框架,使得可以通过单一模型生成不同质量和比特率的视频。通过分层表示,可以有效地捕捉视频中的时间冗余,并允许在不同的分辨率级别上进行压缩。渐进式编码则使得可以根据需要逐步解码视频,从而实现可变码率。

技术框架:HPC框架主要包含两个核心模块:分层表示模块和渐进学习模块。分层表示模块通过多分辨率残差辐射场来构建体积视频的分层表示,其中每一层表示视频的不同细节级别。渐进学习模块则通过端到端的训练方式,联合优化分层表示和压缩,使得模型能够有效地捕捉视频中的时间冗余,并生成高质量的压缩视频。

关键创新:HPC的关键创新在于其分层渐进式的编码框架,该框架允许使用单一模型实现体积视频的可变码率压缩。与现有方法相比,HPC无需为每个目标码率训练一个独立的模型,从而大大降低了计算开销和存储需求。此外,HPC还具有更高的灵活性,可以根据不同的网络带宽和设备能力动态调整视频质量和比特率。

关键设计:HPC的关键设计包括:1) 多分辨率残差辐射场:通过在不同的分辨率级别上构建残差辐射场,可以有效地捕捉视频中的细节信息,并降低时间冗余。2) 多码率失真损失函数:通过联合优化不同码率下的失真和比特率,可以使得模型能够生成高质量的压缩视频。3) 渐进学习策略:通过逐步训练模型,可以使得模型能够更好地捕捉视频中的时间冗余,并提高压缩效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HPC在多个数据集上都取得了具有竞争力的率失真性能,甚至优于固定比特率模型。例如,在某个数据集上,HPC在相同比特率下,PSNR指标比现有方法提高了约1dB。此外,HPC仅需训练一次即可实现多个压缩级别,大大降低了计算开销。

🎯 应用场景

HPC框架在虚拟现实、增强现实、远程呈现、游戏等领域具有广泛的应用前景。它可以用于在有限带宽的网络环境下传输高质量的体积视频,也可以用于在资源受限的设备上播放体积视频。此外,HPC还可以用于创建可交互的体积视频体验,例如允许用户在不同的细节级别上浏览视频。

📄 摘要(原文)

Volumetric video based on Neural Radiance Field (NeRF) holds vast potential for various 3D applications, but its substantial data volume poses significant challenges for compression and transmission. Current NeRF compression lacks the flexibility to adjust video quality and bitrate within a single model for various network and device capacities. To address these issues, we propose HPC, a novel hierarchical progressive volumetric video coding framework achieving variable bitrate using a single model. Specifically, HPC introduces a hierarchical representation with a multi-resolution residual radiance field to reduce temporal redundancy in long-duration sequences while simultaneously generating various levels of detail. Then, we propose an end-to-end progressive learning approach with a multi-rate-distortion loss function to jointly optimize both hierarchical representation and compression. Our HPC trained only once can realize multiple compression levels, while the current methods need to train multiple fixed-bitrate models for different rate-distortion (RD) tradeoffs. Extensive experiments demonstrate that HPC achieves flexible quality levels with variable bitrate by a single model and exhibits competitive RD performance, even outperforming fixed-bitrate models across various datasets.