AirGS: Real-Time 4D Gaussian Streaming for Free-Viewpoint Video Experiences

📄 arXiv: 2512.20943v1 📥 PDF

作者: Zhe Wang, Jinghang Li, Yifei Zhu

分类: cs.GR, cs.DC, cs.LG, cs.MM, cs.NI, eess.IV

发布日期: 2025-12-24

备注: This paper is accepted by IEEE International Conference on Computer Communications (INFOCOM), 2026


💡 一句话要点

AirGS:面向自由视点视频的实时4D高斯流传输

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自由视点视频 4D高斯溅射 实时渲染 流传输优化 动态场景重建

📋 核心要点

  1. 现有4DGS方法在处理长序列时存在质量下降问题,同时带宽和存储开销巨大,限制了其在实时自由视点视频中的应用。
  2. AirGS通过将高斯视频流转换为多通道2D格式,并结合关键帧选择、时间一致性损失等方法,优化训练和传输流程。
  3. 实验表明,AirGS显著降低了质量偏差,提高了训练速度,并减少了每帧传输大小,实现了更高效的自由视点视频流传输。

📝 摘要(中文)

自由视点视频(FVV)通过允许用户从任意视角观看场景,实现了沉浸式观看体验。4D高斯溅射(4DGS)是FVV生成的一种重要重建技术,它使用随时间变化的3D高斯椭球来建模动态场景,并通过快速光栅化实现高质量渲染。然而,现有的4DGS方法存在长序列质量下降的问题,并带来巨大的带宽和存储开销,限制了其在实时和大规模部署中的应用。因此,我们提出了AirGS,一个流传输优化的4DGS框架,它重新设计了训练和交付流程,以实现高质量、低延迟的FVV体验。AirGS将高斯视频流转换为多通道2D格式,并智能地识别关键帧以提高帧重建质量。它进一步结合了时间一致性和膨胀损失,以减少训练时间和表示大小。为了支持通信高效的传输,AirGS将4DGS交付建模为一个整数线性规划问题,并设计了一种轻量级的剪枝级别选择算法,以自适应地剪枝要传输的高斯更新,从而平衡重建质量和带宽消耗。大量实验表明,AirGS在场景变化时,PSNR的质量偏差降低了20%以上,帧级PSNR始终保持在30以上,训练速度提高了6倍,与SOTA 4DGS方法相比,每帧传输大小减少了近50%。

🔬 方法详解

问题定义:论文旨在解决现有4DGS方法在自由视点视频流传输中存在的质量下降、带宽占用高和存储开销大的问题。现有方法难以在长序列动态场景中保持高质量的渲染效果,并且在实时传输场景下,高昂的带宽需求限制了其应用。

核心思路:AirGS的核心思路是通过优化4DGS的训练和传输流程,在保证渲染质量的前提下,降低带宽需求和存储开销。具体来说,通过关键帧选择、多通道2D格式转换、时间一致性损失等方法优化训练过程,并通过自适应剪枝算法优化传输过程。

技术框架:AirGS框架主要包含以下几个阶段:1) 高斯视频流转换:将4DGS表示转换为多通道2D格式。2) 关键帧选择:智能选择关键帧以提高重建质量。3) 训练优化:结合时间一致性和膨胀损失,减少训练时间和表示大小。4) 传输优化:将4DGS交付建模为整数线性规划问题,并设计轻量级剪枝算法,自适应剪枝高斯更新。

关键创新:AirGS的关键创新在于其流传输优化的架构设计,包括:1) 将4DGS表示转换为多通道2D格式,更适合流传输。2) 智能关键帧选择策略,提高重建质量。3) 时间一致性损失和膨胀损失的结合,加速训练并减小模型大小。4) 基于整数线性规划的自适应剪枝算法,平衡重建质量和带宽消耗。与现有方法相比,AirGS更注重流传输效率和实时性。

关键设计:AirGS的关键设计包括:1) 多通道2D格式的具体通道设计,如何编码高斯参数。2) 关键帧选择的策略,例如基于场景变化程度的选择。3) 时间一致性损失和膨胀损失的具体形式和权重。4) 整数线性规划问题的具体建模方式,以及剪枝算法的细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AirGS在场景变化时,PSNR的质量偏差降低了20%以上,帧级PSNR始终保持在30以上。同时,AirGS的训练速度提高了6倍,每帧传输大小减少了近50%,显著优于现有的SOTA 4DGS方法。这些数据表明AirGS在保证渲染质量的同时,显著提高了流传输效率。

🎯 应用场景

AirGS可应用于各种需要实时自由视点视频的场景,例如:在线游戏、虚拟现实/增强现实(VR/AR)应用、远程协作、体育赛事直播等。该研究降低了自由视点视频的带宽需求和存储成本,使其更容易部署在资源受限的环境中,并为用户提供更流畅、更具沉浸感的观看体验。未来,AirGS可以进一步扩展到更大规模、更复杂的动态场景。

📄 摘要(原文)

Free-viewpoint video (FVV) enables immersive viewing experiences by allowing users to view scenes from arbitrary perspectives. As a prominent reconstruction technique for FVV generation, 4D Gaussian Splatting (4DGS) models dynamic scenes with time-varying 3D Gaussian ellipsoids and achieves high-quality rendering via fast rasterization. However, existing 4DGS approaches suffer from quality degradation over long sequences and impose substantial bandwidth and storage overhead, limiting their applicability in real-time and wide-scale deployments. Therefore, we present AirGS, a streaming-optimized 4DGS framework that rearchitects the training and delivery pipeline to enable high-quality, low-latency FVV experiences. AirGS converts Gaussian video streams into multi-channel 2D formats and intelligently identifies keyframes to enhance frame reconstruction quality. It further combines temporal coherence with inflation loss to reduce training time and representation size. To support communication-efficient transmission, AirGS models 4DGS delivery as an integer linear programming problem and design a lightweight pruning level selection algorithm to adaptively prune the Gaussian updates to be transmitted, balancing reconstruction quality and bandwidth consumption. Extensive experiments demonstrate that AirGS reduces quality deviation in PSNR by more than 20% when scene changes, maintains frame-level PSNR consistently above 30, accelerates training by 6 times, reduces per-frame transmission size by nearly 50% compared to the SOTA 4DGS approaches.