GeoMag: Geometric-Aware Video Motion Magnification via State Space Model
作者: Kecheng Han, Yuchen Zhang, Bingqing Liu, Boqiang Guo, Wenbin Zheng, Shiyuan Pei
分类: cs.CV
发布日期: 2026-05-28
备注: ICME 2026 Spotlight
💡 一句话要点
提出GeoMag:基于状态空间模型的几何感知视频运动放大方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频运动放大 状态空间模型 几何感知 运动估计 视频处理
📋 核心要点
- 现有VMM方法在处理复杂几何变换时,难以保证结构一致性,且存在CNN全局上下文不足或Transformer计算成本过高的问题。
- GeoMag利用状态空间模型,构建几何感知的VMM框架,旨在以线性复杂度实现全局一致的运动放大,提升视觉保真度。
- 论文构建了大规模合成数据集Geo-200K,引入丰富的几何变换和传感器退化,实验表明GeoMag在视觉效果和计算效率上均优于现有方法。
📝 摘要(中文)
视频运动放大(VMM)旨在揭示难以察觉的动态变化,但常在复杂的几何变换下出现结构不一致问题。现有的基于学习的方法通常面临CNN有限的全局上下文和Transformer高计算成本之间的权衡。此外,当前的训练协议主要由简单的线性运动主导,无法捕捉真实视频中遇到的几何和成像复杂性。为了解决这些问题,我们提出GeoMag,一个基于状态空间模型的几何感知VMM框架,以线性复杂度实现全局一致的运动放大。我们进一步构建了Geo-200K,一个大规模合成数据集,引入了丰富的几何变换以及传感器级别的退化,提高了训练信号的多样性和真实性。在合成和真实世界基准上的大量实验表明,GeoMag在视觉保真度和计算效率方面始终优于现有方法,同时产生更少的伪影和更好的结构一致性。
🔬 方法详解
问题定义:视频运动放大(VMM)旨在放大视频中微小的运动,使其更加明显。然而,现有方法在处理包含复杂几何变换的视频时,容易产生结构不一致的伪影。基于CNN的方法感受野有限,难以捕捉全局上下文,而基于Transformer的方法计算复杂度高,难以应用于高分辨率视频。此外,现有训练数据通常只包含简单的线性运动,缺乏真实场景中的复杂几何变换和成像退化。
核心思路:GeoMag的核心思路是利用状态空间模型(SSM)来建模视频中的运动。SSM具有线性复杂度和全局感受野的优点,能够有效地捕捉视频中的时序依赖关系和几何变换。通过将几何信息融入到SSM中,GeoMag能够实现几何感知的运动放大,从而提高结构一致性。
技术框架:GeoMag框架主要包含以下几个模块:1) 特征提取模块:用于提取输入视频帧的特征表示。2) 状态空间模型:用于建模视频中的运动,并进行运动放大。3) 几何感知模块:用于将几何信息融入到状态空间模型中。4) 图像重建模块:用于将放大的运动信息重建为视频帧。整个流程是,输入视频帧首先经过特征提取,然后通过几何感知模块将几何信息融入到状态空间模型中,SSM进行运动放大,最后通过图像重建模块生成放大的视频帧。
关键创新:GeoMag的关键创新在于:1) 提出了基于状态空间模型的几何感知VMM框架,实现了全局一致的运动放大。2) 构建了大规模合成数据集Geo-200K,引入了丰富的几何变换和传感器退化,提高了训练数据的多样性和真实性。3) 将几何信息融入到状态空间模型中,实现了几何感知的运动放大,提高了结构一致性。
关键设计:GeoMag的关键设计包括:1) 使用线性状态空间模型,降低计算复杂度。2) 设计了几何感知模块,将几何信息融入到状态空间模型中。3) 使用对抗损失函数,提高生成视频的视觉质量。4) Geo-200K数据集包含多种几何变换(如旋转、缩放、平移)和传感器退化(如噪声、模糊),以模拟真实场景中的复杂情况。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GeoMag在合成和真实世界数据集上均优于现有方法。在视觉保真度方面,GeoMag的PSNR和SSIM指标显著高于其他方法。在计算效率方面,GeoMag的运行时间远低于基于Transformer的方法。此外,GeoMag能够生成更少的伪影和更好的结构一致性,尤其是在处理包含复杂几何变换的视频时。
🎯 应用场景
GeoMag在多个领域具有广泛的应用前景,例如:医学影像分析(放大微小器官运动)、工业检测(检测微小形变)、运动分析(分析运动员的细微动作)以及安全监控(检测异常行为)。该研究有助于提高视频运动放大的精度和效率,为相关领域的应用提供更可靠的技术支持,并可能促进新型视频分析工具的开发。
📄 摘要(原文)
Video Motion Magnification (VMM) reveals imperceptible dynamics but often suffers from structural inconsistencies under complex geometric transformations. Existing learning-based methods generally face a trade-off between the limited global context of CNNs and the high computational cost of Transformers. In addition, current training protocols, largely dominated by simple linear motion, fail to capture the geometric and imaging complexities encountered in real-world videos. To address these issues, we propose GeoMag, a geometric-aware VMM framework built upon State Space Models to achieve globally consistent motion amplification with linear complexity. We further construct Geo-200K, a large-scale synthetic dataset that introduces rich geometric transformations together with sensor-realistic degradations, improving the diversity and realism of training signals. Extensive experiments on synthetic and real-world benchmarks show that GeoMag consistently outperforms prior methods in visual fidelity and computational efficiency, while producing fewer artifacts and better structural consistency.