GS-STVSR: Ultra-Efficient Continuous Spatio-Temporal Video Super-Resolution via 2D Gaussian Splatting

📄 arXiv: 2604.18047v1 📥 PDF

作者: Mingyu Shi, Xin Di, Long Peng, Boxiang Cao, Anran Wu, Zhanfeng Feng, Jiaming Guo, Renjing Pei, Xueyang Fu, Yang Cao, Zhengjun Zha

分类: cs.CV

发布日期: 2026-04-20


💡 一句话要点

提出基于2D高斯溅射的GS-STVSR,实现超高效连续时空视频超分辨率

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频超分辨率 连续时空 高斯溅射 隐式神经表示 光流估计

📋 核心要点

  1. 现有基于INR的C-STVSR方法依赖密集网格查询,计算成本随插值帧数线性增长,限制了推理效率。
  2. GS-STVSR利用2D高斯溅射,通过连续运动建模驱动高斯核演化,避免了密集网格查询,提升效率。
  3. 实验表明,GS-STVSR在多个数据集上达到SOTA,并在极端尺度下实现显著加速,具有实际应用价值。

📝 摘要(中文)

连续时空视频超分辨率(C-STVSR)旨在通过任意比例因子同时提高视频的空间分辨率和帧率,与受预定义上采样率限制的固定比例方法相比,提供了更大的灵活性。近年来,基于隐式神经表示(INR)的方法通过学习时空坐标到像素值的连续映射,在C-STVSR方面取得了显著进展。然而,这些方法从根本上依赖于密集的像素级网格查询,导致计算成本随插值帧数线性增加,严重限制了推理效率。我们提出了GS-STVSR,一个基于2D高斯溅射(2D-GS)的超高效C-STVSR框架,通过连续运动建模驱动高斯核的时空演化,完全绕过了密集的网格查询。我们利用协方差参数的强时间稳定性进行轻量级中间拟合,设计了一个光流引导的运动模块来推导任意时间步长的高斯位置和颜色,引入了一个协方差重采样对齐模块来防止协方差漂移,并提出了一个自适应偏移窗口用于大规模运动。在Vid4、GoPro和Adobe240上的大量实验表明,GS-STVSR在所有基准测试中都实现了最先进的质量。此外,其推理时间在传统时间尺度(X2--X8)下几乎保持不变,并在极端尺度X32下提供超过X3的加速,展示了强大的实际适用性。

🔬 方法详解

问题定义:论文旨在解决连续时空视频超分辨率(C-STVSR)问题。现有基于隐式神经表示(INR)的方法虽然有效,但依赖于密集的像素级网格查询,导致计算量巨大,尤其是在需要生成大量插帧时,推理速度会显著下降,难以满足实际应用的需求。

核心思路:论文的核心思路是利用2D高斯溅射(2D-GS)来表示视频内容,并使用连续运动模型来驱动高斯核的时空演化。通过这种方式,可以避免对像素网格进行密集查询,从而显著提高推理效率。2D-GS能够以紧凑的方式表示场景,并且其参数具有较好的可解释性,便于进行运动建模。

技术框架:GS-STVSR框架主要包含以下几个模块:1) 高斯初始化:从输入视频帧中提取高斯参数,作为后续运动建模的基础。2) 光流引导的运动模块:利用光流信息预测高斯核在任意时间步长的位置和颜色。3) 协方差重采样对齐模块:用于防止高斯核的协方差参数在时间演化过程中发生漂移,保证渲染质量。4) 自适应偏移窗口:处理大规模运动,确保高斯核能够准确地跟踪运动轨迹。5) 渲染模块:将高斯核渲染成最终的超分辨率视频帧。

关键创新:该论文的关键创新在于将2D高斯溅射引入到连续时空视频超分辨率任务中,并设计了一系列模块来保证高斯核能够准确地表示和演化视频内容。与传统的基于INR的方法相比,GS-STVSR避免了密集的网格查询,从而实现了更高的推理效率。此外,论文还提出了协方差重采样对齐模块和自适应偏移窗口,进一步提升了算法的鲁棒性和性能。

关键设计:论文中一些关键的设计包括:1) 利用光流信息来引导高斯核的运动,保证了运动估计的准确性。2) 协方差重采样对齐模块通过对协方差矩阵进行正则化,防止了高斯核的形状发生畸变。3) 自适应偏移窗口根据运动幅度动态调整搜索范围,提高了算法处理大规模运动的能力。4) 损失函数的设计也至关重要,需要平衡超分辨率质量和时间一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GS-STVSR在Vid4、GoPro和Adobe240等数据集上取得了state-of-the-art的性能。在传统时间尺度(X2--X8)下,其推理时间几乎保持不变。在极端尺度X32下,GS-STVSR实现了超过X3的加速,显著优于现有方法。这些实验结果表明,GS-STVSR在保证超分辨率质量的同时,显著提高了推理效率,具有很强的实用价值。

🎯 应用场景

GS-STVSR在视频编辑、游戏开发、虚拟现实等领域具有广泛的应用前景。它可以用于提高低分辨率视频的清晰度和帧率,从而改善观看体验。此外,该方法还可以用于生成高质量的慢动作视频,或者对视频进行任意时间尺度的插值,为视频创作提供更大的灵活性。由于其高效的推理速度,GS-STVSR也适用于实时视频处理应用。

📄 摘要(原文)

Continuous Spatio-Temporal Video Super-Resolution (C-STVSR) aims to simultaneously enhance the spatial resolution and frame rate of videos by arbitrary scale factors, offering greater flexibility than fixed-scale methods that are constrained by predefined upsampling ratios. In recent years, methods based on Implicit Neural Representations (INR) have made significant progress in C-STVSR by learning continuous mappings from spatio-temporal coordinates to pixel values. However, these methods fundamentally rely on dense pixel-wise grid queries, causing computational cost to scale linearly with the number of interpolated frames and severely limiting inference efficiency. We propose GS-STVSR, an ultra-efficient C-STVSR framework based on 2D Gaussian Splatting (2D-GS) that drives the spatiotemporal evolution of Gaussian kernels through continuous motion modeling, bypassing dense grid queries entirely. We exploit the strong temporal stability of covariance parameters for lightweight intermediate fitting, design an optical flow-guided motion module to derive Gaussian position and color at arbitrary time steps, introduce a Covariance resampling alignment module to prevent covariance drift, and propose an adaptive offset window for large-scale motion. Extensive experiments on Vid4, GoPro, and Adobe240 show that GS-STVSR achieves state-of-the-art quality across all benchmarks. Moreover, its inference time remains nearly constant at conventional temporal scales (X2--X8) and delivers over X3 speedup at extreme scales X32, demonstrating strong practical applicability.