Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video Motion Transfer

📄 arXiv: 2512.04282v1 📥 PDF

作者: Tasmiah Haque, Srinjoy Das

分类: cs.CV, cs.LG

发布日期: 2025-12-03


💡 一句话要点

提出GRU-SNF,通过推理时随机细化GRU-NF,实现实时视频运动迁移中多样性预测。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频运动迁移 时间序列预测 归一化流 随机细化 马尔可夫链蒙特卡洛 GRU网络 多模态预测

📋 核心要点

  1. 现有GRU-NF模型在视频运动预测中,由于确定性变换结构,表达能力受限,难以生成足够多样的未来轨迹。
  2. 受SNF启发,在GRU-NF推理阶段引入MCMC,无需重新训练即可探索更丰富的输出空间,逼近真实数据分布。
  3. 实验表明,GRU-SNF在保证准确性的前提下,显著提升了预测结果的多样性,尤其在长时序预测中表现更佳。

📝 摘要(中文)

本文提出了一种新颖的推理时细化技术,用于提升实时视频运动迁移应用中序列预测的多样性。该技术结合了门控循环单元-归一化流(GRU-NF)与随机抽样方法。GRU-NF虽然可以通过在时间预测框架中集成归一化流来捕获多模态分布,但其确定性变换结构限制了表达能力。受随机归一化流(SNF)的启发,本文在GRU-NF推理过程中引入马尔可夫链蒙特卡洛(MCMC)步骤,使模型能够探索更丰富的输出空间,并在无需重新训练的情况下更好地逼近真实数据分布。在基于关键点的视频运动迁移流水线中验证了该方法,该场景需要捕获时间连贯且感知上多样的未来轨迹,以实现逼真的样本和低带宽通信。实验表明,本文的推理框架门控循环单元-随机归一化流(GRU-SNF)在生成多样化输出方面优于GRU-NF,且不牺牲准确性,即使在更长的预测范围内也是如此。通过在推理过程中注入随机性,该方法更有效地捕获了多模态行为。这些结果突出了将随机动态与基于流的序列模型相结合用于生成时间序列预测的潜力。

🔬 方法详解

问题定义:论文旨在解决实时视频运动迁移中,未来运动轨迹预测的多样性不足问题。现有的GRU-NF模型虽然能够进行时间序列预测,但其确定性的变换结构限制了模型表达能力,导致生成的未来轨迹不够多样,无法满足沉浸式游戏和基于视觉的异常检测等应用的需求。

核心思路:论文的核心思路是在GRU-NF的推理阶段引入随机性,使其能够探索更广泛的输出空间,从而生成更多样化的未来运动轨迹。具体而言,借鉴了随机归一化流(SNF)的思想,在推理过程中加入马尔可夫链蒙特卡洛(MCMC)采样步骤,以修正GRU-NF的确定性预测结果。

技术框架:整体框架可以分为两个主要部分:GRU-NF模型和推理时的随机细化过程。首先,使用GRU-NF模型对输入视频的关键点序列进行编码,并预测未来的运动轨迹。然后,在推理阶段,对GRU-NF的输出结果进行多次MCMC采样,以生成多个候选的未来轨迹。最后,选择一个最优的轨迹作为最终的预测结果。

关键创新:最重要的创新点是在GRU-NF的推理过程中引入了随机细化步骤。与传统的确定性GRU-NF相比,该方法能够生成更多样化的未来轨迹,从而更好地适应真实世界中运动的不确定性。此外,该方法无需重新训练模型,即可实现多样性提升,具有很高的实用价值。

关键设计:MCMC采样的具体实现细节是关键。论文中可能涉及 Metropolis-Hastings 算法或其他MCMC变体。关键参数包括MCMC的迭代次数、提议分布的选择等。损失函数可能包括重建损失和正则化项,以保证生成轨迹的准确性和平滑性。网络结构方面,GRU-NF的具体实现可能涉及多层GRU和归一化流的组合。

📊 实验亮点

实验结果表明,GRU-SNF在生成多样化输出方面显著优于GRU-NF,尤其是在长时序预测中。在保证预测准确性的前提下,GRU-SNF能够生成更符合真实运动模式的未来轨迹。具体的性能数据(例如,多样性指标的提升幅度)需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于实时视频运动迁移领域,例如沉浸式游戏、虚拟现实、人机交互等。通过生成多样且准确的未来运动预测,可以提升用户体验,增强系统的鲁棒性。此外,该方法还可应用于基于视觉的异常检测,通过预测正常行为的多种可能性,更准确地识别异常事件。

📄 摘要(原文)

Real-time video motion transfer applications such as immersive gaming and vision-based anomaly detection require accurate yet diverse future predictions to support realistic synthesis and robust downstream decision making under uncertainty. To improve the diversity of such sequential forecasts we propose a novel inference-time refinement technique that combines Gated Recurrent Unit-Normalizing Flows (GRU-NF) with stochastic sampling methods. While GRU-NF can capture multimodal distributions through its integration of normalizing flows within a temporal forecasting framework, its deterministic transformation structure can limit expressivity. To address this, inspired by Stochastic Normalizing Flows (SNF), we introduce Markov Chain Monte Carlo (MCMC) steps during GRU-NF inference, enabling the model to explore a richer output space and better approximate the true data distribution without retraining. We validate our approach in a keypoint-based video motion transfer pipeline, where capturing temporally coherent and perceptually diverse future trajectories is essential for realistic samples and low bandwidth communication. Experiments show that our inference framework, Gated Recurrent Unit- Stochastic Normalizing Flows (GRU-SNF) outperforms GRU-NF in generating diverse outputs without sacrificing accuracy, even under longer prediction horizons. By injecting stochasticity during inference, our approach captures multimodal behavior more effectively. These results highlight the potential of integrating stochastic dynamics with flow-based sequence models for generative time series forecasting.