PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

📄 arXiv: 2602.23040v1 📥 PDF

作者: Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar

分类: cs.CV

发布日期: 2026-02-26

备注: https://ivl.cs.brown.edu/packuv

期刊: CVPR 2026


💡 一句话要点

PackUV:提出基于UV图的紧凑型高斯表示,用于高效存储和传输4D体积视频

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 体积视频 高斯溅射 UV图集 4D表示 视频编码

📋 核心要点

  1. 现有基于高斯溅射的体积视频重建方法在长序列、时间一致性以及大运动遮挡下存在不足,限制了其应用。
  2. PackUV将高斯属性映射到UV图集,提出时间一致的PackUV-GS拟合方法,并使用流引导的高斯标记和关键帧模块来提升时间连贯性。
  3. PackUV在PackUV-2B数据集上表现出色,渲染质量超越现有方法,并能处理长达30分钟的序列,同时与标准视频编解码器兼容。

📝 摘要(中文)

体积视频提供沉浸式4D体验,但其重建、存储和流式传输仍然具有挑战性。现有的基于高斯溅射的方法虽然能实现高质量重建,但在长序列、时间一致性以及大运动和遮挡情况下表现不佳。此外,它们的输出通常与传统视频编码流程不兼容,阻碍了实际应用。我们提出了PackUV,一种新颖的4D高斯表示,将所有高斯属性映射到结构化的多尺度UV图集序列中,从而实现紧凑的、图像原生的存储。为了从多视角视频中拟合这种表示,我们提出了PackUV-GS,一种时间一致的拟合方法,直接在UV域中优化高斯参数。一个流引导的高斯标记和视频关键帧模块识别动态高斯,稳定静态区域,并在大运动和遮挡下保持时间连贯性。由此产生的UV图集格式是第一个与标准视频编解码器(例如FFV1)兼容的统一体积视频表示,且不损失质量,从而可以在现有的多媒体基础设施中实现高效流式传输。为了评估长时间的体积捕获,我们提出了PackUV-2B,迄今为止最大的多视角视频数据集,包含超过50个同步摄像头,大量运动,以及100个序列和20亿帧上的频繁遮挡。大量的实验表明,我们的方法在渲染保真度方面超越了现有的基线,同时可以扩展到长达30分钟的序列,并保持一致的质量。

🔬 方法详解

问题定义:现有基于高斯溅射的体积视频重建方法,虽然渲染质量高,但在处理长时间序列时,时间一致性较差,尤其是在存在大运动和遮挡的情况下。此外,这些方法生成的表示形式通常与现有的视频编码和流媒体基础设施不兼容,难以实际应用。因此,需要一种既能保持高质量渲染,又能实现高效存储和传输的体积视频表示方法。

核心思路:PackUV的核心思路是将4D高斯表示映射到一系列结构化的多尺度UV图集中。通过在UV域中直接优化高斯参数,可以实现时间一致的拟合。此外,利用光流信息引导高斯标记和关键帧选择,可以有效地处理大运动和遮挡,从而提高时间连贯性。这种基于UV图的表示形式与标准视频编解码器兼容,可以直接利用现有的视频编码和流媒体技术。

技术框架:PackUV-GS的整体框架包括以下几个主要模块:1) 多视角视频输入;2) 光流估计;3) 流引导的高斯标记和关键帧选择;4) 在UV域中进行高斯参数优化;5) 生成UV图集序列。首先,从多视角视频中提取光流信息,用于指导高斯标记和关键帧选择。然后,根据光流信息,将高斯参数映射到UV图集中,并在UV域中进行优化,以实现时间一致的拟合。最后,将优化后的高斯参数转换成UV图集序列,用于存储和传输。

关键创新:PackUV最重要的技术创新点在于其基于UV图的4D高斯表示。这种表示形式不仅紧凑,而且与标准视频编解码器兼容,可以直接利用现有的视频编码和流媒体技术。此外,通过在UV域中直接优化高斯参数,可以实现时间一致的拟合,从而提高渲染质量。流引导的高斯标记和关键帧选择模块可以有效地处理大运动和遮挡,进一步提高时间连贯性。

关键设计:PackUV的关键设计包括:1) 多尺度UV图集的设计,用于存储不同分辨率的高斯参数;2) 在UV域中进行高斯参数优化的损失函数,包括渲染损失、时间一致性损失等;3) 流引导的高斯标记和关键帧选择算法,用于识别动态高斯,稳定静态区域,并在大运动和遮挡下保持时间连贯性。具体的参数设置和网络结构在论文中有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PackUV在PackUV-2B数据集上进行了广泛的实验,结果表明,PackUV在渲染保真度方面超越了现有的基线方法,同时可以扩展到长达30分钟的序列,并保持一致的质量。PackUV能够与标准视频编解码器(例如FFV1)兼容,从而可以在现有的多媒体基础设施中实现高效流式传输。PackUV-2B数据集是迄今为止最大的多视角视频数据集,为体积视频研究提供了重要的资源。

🎯 应用场景

PackUV具有广泛的应用前景,包括虚拟现实、增强现实、远程呈现、游戏、电影制作等领域。它可以用于创建高质量、沉浸式的4D体验,并能利用现有的视频编码和流媒体基础设施进行高效的存储和传输。PackUV的出现有望推动体积视频技术的普及和应用,为用户带来更加逼真和生动的视觉体验。

📄 摘要(原文)

Volumetric videos offer immersive 4D experiences, but remain difficult to reconstruct, store, and stream at scale. Existing Gaussian Splatting based methods achieve high-quality reconstruction but break down on long sequences, temporal inconsistency, and fail under large motions and disocclusions. Moreover, their outputs are typically incompatible with conventional video coding pipelines, preventing practical applications. We introduce PackUV, a novel 4D Gaussian representation that maps all Gaussian attributes into a sequence of structured, multi-scale UV atlas, enabling compact, image-native storage. To fit this representation from multi-view videos, we propose PackUV-GS, a temporally consistent fitting method that directly optimizes Gaussian parameters in the UV domain. A flow-guided Gaussian labeling and video keyframing module identifies dynamic Gaussians, stabilizes static regions, and preserves temporal coherence even under large motions and disocclusions. The resulting UV atlas format is the first unified volumetric video representation compatible with standard video codecs (e.g., FFV1) without losing quality, enabling efficient streaming within existing multimedia infrastructure. To evaluate long-duration volumetric capture, we present PackUV-2B, the largest multi-view video dataset to date, featuring more than 50 synchronized cameras, substantial motion, and frequent disocclusions across 100 sequences and 2B (billion) frames. Extensive experiments demonstrate that our method surpasses existing baselines in rendering fidelity while scaling to sequences up to 30 minutes with consistent quality.