PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

📄 arXiv: 2602.23040 📥 PDF

作者: Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

PackUV:提出基于UV图的紧凑型高斯表示,用于高效4D体积视频的存储与传输。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 体积视频 高斯溅射 UV图集 时间一致性 视频编码 多视角视频 4D重建

📋 核心要点

  1. 现有基于高斯溅射的体积视频重建方法在处理长序列时,存在时间一致性问题,且难以应对大运动和遮挡。
  2. PackUV将高斯属性映射到UV图集,提出PackUV-GS方法在UV域优化高斯参数,并使用流引导模块保持时间连贯性。
  3. PackUV在PackUV-2B数据集上表现出色,渲染质量超越现有方法,并能处理长达30分钟的序列,兼容标准视频编解码器。

📝 摘要(中文)

体积视频提供沉浸式4D体验,但其重建、存储和流式传输仍然具有挑战性。现有的基于高斯溅射的方法虽然能实现高质量重建,但在长序列、时间一致性方面表现不佳,并且在大运动和遮挡下容易失效。此外,它们的输出通常与传统视频编码流程不兼容,阻碍了实际应用。我们提出了PackUV,一种新颖的4D高斯表示,将所有高斯属性映射到结构化的多尺度UV图集中,从而实现紧凑的、图像原生的存储。为了从多视角视频中拟合这种表示,我们提出了PackUV-GS,一种时间一致的拟合方法,直接在UV域中优化高斯参数。一个流引导的高斯标记和视频关键帧模块识别动态高斯,稳定静态区域,并在大运动和遮挡下保持时间连贯性。由此产生的UV图集格式是第一个与标准视频编解码器(例如FFV1)兼容的统一体积视频表示,且不损失质量,从而可以在现有的多媒体基础设施中实现高效的流式传输。为了评估长时间的体积捕获,我们提出了PackUV-2B,迄今为止最大的多视角视频数据集,包含超过50个同步相机,大量运动,以及100个序列和20亿帧中的频繁遮挡。大量的实验表明,我们的方法在渲染保真度方面超过了现有的基线,同时可以扩展到长达30分钟的序列,并保持一致的质量。

🔬 方法详解

问题定义:现有基于高斯溅射的体积视频重建方法,虽然能实现高质量的渲染,但在处理长时间序列时,会遇到时间一致性问题,尤其是在存在大运动和遮挡的情况下。此外,这些方法的输出格式通常与现有的视频编码和流媒体基础设施不兼容,限制了其在实际应用中的部署。因此,如何实现高质量、时间一致且易于存储和传输的体积视频表示是一个关键问题。

核心思路:PackUV的核心思路是将4D高斯表示映射到一系列结构化的多尺度UV图集中。通过在UV域中直接优化高斯参数,可以实现更紧凑的存储和更高效的渲染。此外,利用光流引导的高斯标记和关键帧选择策略,可以有效地处理大运动和遮挡,从而保持时间一致性。这种设计使得体积视频能够以图像原生的格式存储,并与现有的视频编解码器兼容。

技术框架:PackUV-GS的整体框架包括以下几个主要模块:1) 多视角视频输入;2) 光流估计模块,用于估计相邻帧之间的运动;3) 流引导的高斯标记模块,用于识别动态和静态高斯;4) 视频关键帧选择模块,用于选择代表性的帧;5) UV图集生成模块,将高斯参数映射到UV空间;6) PackUV-GS优化模块,在UV域中优化高斯参数,以最小化渲染误差;7) 渲染模块,从UV图集中渲染出体积视频。

关键创新:PackUV最关键的创新在于其将4D高斯表示映射到UV图集,并直接在UV域中进行优化。这种表示方法不仅实现了更紧凑的存储,还使得体积视频能够与现有的视频编码和流媒体基础设施兼容。此外,流引导的高斯标记和关键帧选择策略有效地解决了大运动和遮挡带来的时间一致性问题。与现有方法相比,PackUV提供了一种更实用、更高效的体积视频表示和重建方案。

关键设计:PackUV的关键设计包括:1) 多尺度UV图集,用于存储不同分辨率的高斯参数;2) 光流引导的高斯标记模块,利用光流信息区分动态和静态高斯,并对动态高斯进行更精细的优化;3) PackUV-GS优化模块,使用基于梯度下降的优化算法,最小化渲染误差,并保持时间一致性;4) 损失函数的设计,包括渲染损失、时间一致性损失和正则化损失,以保证渲染质量和时间稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PackUV在PackUV-2B数据集上进行了广泛的实验,结果表明,该方法在渲染保真度方面显著优于现有基线方法。尤其是在处理长序列、大运动和遮挡场景时,PackUV能够保持时间一致性,并实现高质量的渲染效果。此外,PackUV生成的UV图集格式与标准视频编解码器兼容,使得体积视频能够以更高效的方式存储和传输。

🎯 应用场景

PackUV技术可广泛应用于虚拟现实、增强现实、远程呈现、游戏、电影制作等领域。它能够实现高质量、低带宽的体积视频流式传输,为用户提供更沉浸式的交互体验。该技术还有助于推动体积视频内容的普及,并促进相关产业的发展。

📄 摘要(原文)

Volumetric videos offer immersive 4D experiences, but remain difficult to reconstruct, store, and stream at scale. Existing Gaussian Splatting based methods achieve high-quality reconstruction but break down on long sequences, temporal inconsistency, and fail under large motions and disocclusions. Moreover, their outputs are typically incompatible with conventional video coding pipelines, preventing practical applications.We introduce PackUV, a novel 4D Gaussian representation that maps all Gaussian attributes into a sequence of structured, multi-scale UV atlas, enabling compact, image-native storage. To fit this representation from multi-view videos, we propose PackUV-GS, a temporally consistent fitting method that directly optimizes Gaussian parameters in the UV domain. A flow-guided Gaussian labeling and video keyframing module identifies dynamic Gaussians, stabilizes static regions, and preserves temporal coherence even under large motions and disocclusions. The resulting UV atlas format is the first unified volumetric video representation compatible with standard video codecs (e.g., FFV1) without losing quality, enabling efficient streaming within existing multimedia infrastructure.To evaluate long-duration volumetric capture, we present PackUV-2B, the largest multi-view video dataset to date, featuring more than 50 synchronized cameras, substantial motion, and frequent disocclusions across 100 sequences and 2B (billion) frames. Extensive experiments demonstrate that our method surpasses existing baselines in rendering fidelity while scaling to sequences up to 30 minutes with consistent quality.