STGV: Spatio-Temporal Hash Encoding for Gaussian-based Video Representation
作者: Jierun Lin, Jiacong Chen, Qingyu Mao, Shuai Liu, Xiandong Meng, Fanyang Meng, Yongsheng Liang
分类: cs.CV
发布日期: 2026-04-13
💡 一句话要点
提出STGV,通过时空哈希编码提升高斯视频表示质量
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频表示 高斯溅射 时空编码 哈希编码 视频建模
📋 核心要点
- 现有基于高斯的视频表示方法难以有效区分和建模视频中的静态背景和动态物体,导致时空形变预测不准确。
- STGV将视频特征解耦为可学习的2D空间和3D时间哈希编码,分别建模静态背景和动态物体的运动模式。
- 通过关键帧初始化策略,STGV构建了更稳定和一致的初始高斯表示,实验表明其视频表示质量优于其他高斯方法。
📝 摘要(中文)
本文提出了一种基于高斯视频表示的时空哈希编码框架(STGV),旨在解决现有方法中静态和动态组件纠缠的问题。现有方法通常采用内容无关或时空特征重叠的嵌入来预测规范高斯基元的形变,这阻碍了对视频中静态和动态组件的有效建模。STGV通过将视频特征分解为可学习的2D空间和3D时间哈希编码,有效地促进了动态组件的运动模式学习,同时保持了静态元素的背景细节。此外,通过关键帧规范初始化策略构建了更稳定和一致的初始规范高斯表示,避免了特征重叠和结构不连贯的几何表示。实验结果表明,相对于其他基于高斯的方法,STGV获得了更好的视频表示质量(+0.98 PSNR),并在下游视频任务中取得了具有竞争力的性能。
🔬 方法详解
问题定义:现有基于2D高斯溅射(2DGS)的视频表示方法,在预测高斯基元的形变时,采用内容无关或时空特征重叠的嵌入方式。这种方式将视频中的静态背景和动态物体混淆在一起,无法有效建模它们各自的特性,导致时空形变预测不准确,最终影响视频表示的质量。现有方法难以区分静态和动态组件,导致表示能力受限。
核心思路:STGV的核心思路是将视频特征解耦为空间和时间两个维度,分别使用2D空间哈希编码和3D时间哈希编码来表示。空间哈希编码负责捕捉静态背景的细节,而时间哈希编码则负责学习动态物体的运动模式。通过这种解耦的方式,STGV能够更有效地建模视频中的静态和动态组件,从而提高视频表示的质量。
技术框架:STGV框架主要包含以下几个阶段:1) 关键帧规范初始化:选择关键帧并初始化规范高斯表示。2) 时空哈希编码:将视频特征分解为2D空间哈希编码和3D时间哈希编码。3) 高斯形变预测:利用哈希编码预测高斯基元的形变。4) 视频渲染:将形变后的高斯基元渲染成最终的视频。
关键创新:STGV的关键创新在于提出了时空哈希编码框架,将视频特征解耦为空间和时间两个维度进行表示。这种解耦的方式能够有效区分和建模视频中的静态背景和动态物体,从而提高视频表示的质量。与现有方法相比,STGV能够更准确地预测时空形变,并生成更逼真的视频表示。
关键设计:STGV的关键设计包括:1) 2D空间哈希编码和3D时间哈希编码的具体实现方式,例如哈希表的尺寸、哈希函数的选择等。2) 关键帧的选择策略,例如选择具有代表性的帧或使用聚类算法选择关键帧。3) 高斯形变预测的网络结构和损失函数,例如使用MLP预测形变参数,并使用L1或L2损失函数进行优化。4) 关键帧规范初始化策略,确保初始高斯表示的稳定性和一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STGV在视频表示质量上优于其他基于高斯的方法,PSNR指标提升了0.98。此外,STGV在下游视频任务中也取得了具有竞争力的性能,证明了其有效性和泛化能力。这些结果表明,通过时空哈希编码,STGV能够更有效地建模视频中的静态和动态组件,从而提高视频表示的质量。
🎯 应用场景
STGV可应用于视频压缩、视频编辑、视频生成、视频监控等领域。通过更高效的视频表示,可以降低视频存储和传输的成本,提高视频编辑的效率,生成更逼真的视频内容,并提升视频监控系统的性能。该研究对虚拟现实、增强现实等领域也有潜在的应用价值。
📄 摘要(原文)
2D Gaussian Splatting (2DGS) has recently become a promising paradigm for high-quality video representation. However, existing methods employ content-agnostic or spatio-temporal feature overlapping embeddings to predict canonical Gaussian primitive deformations, which entangles static and dynamic components in videos and prevents modeling their distinct properties effectively. These result in inaccurate predictions for spatio-temporal deformations and unsatisfactory representation quality. To address these problems, this paper proposes a Spatio-Temporal hash encoding framework for Gaussian-based Video representation (STGV). By decomposing video features into learnable 2D spatial and 3D temporal hash encodings, STGV effectively facilitates the learning of motion patterns for dynamic components while maintaining background details for static elements.In addition, we construct a more stable and consistent initial canonical Gaussian representation through a key frame canonical initialization strategy, preventing from feature overlapping and a structurally incoherent geometry representation. Experimental results demonstrate that our method attains better video representation quality (+0.98 PSNR) against other Gaussian-based methods and achieves competitive performance in downstream video tasks.