Towards Arbitrary Motion Completing via Hierarchical Continuous Representation

📄 arXiv: 2512.21183v1 📥 PDF

作者: Chenghao Xu, Guangtao Lyu, Qi Liu, Jiexi Yan, Muli Yang, Cheng Deng

分类: cs.CV

发布日期: 2025-12-24


💡 一句话要点

提出基于分层连续表示的NAME框架,实现任意帧率的运动补全

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 运动补全 隐式神经表示 连续表示 分层时间编码 参数激活函数

📋 核心要点

  1. 现有方法难以在任意帧率下对运动序列进行插值和外推,限制了运动补全的灵活性和应用范围。
  2. 提出NAME框架,利用分层时间编码和参数激活函数增强隐式神经表示,实现运动序列的连续表示。
  3. 实验结果表明,该方法在多个基准数据集上表现出良好的性能和鲁棒性,能够有效完成任意帧率的运动补全任务。

📝 摘要(中文)

本文首次探索了人体运动序列的连续表示,使其能够在任意帧率下对输入运动序列进行插值、中间帧生成甚至外推,从而提高运动的平滑性和时间连贯性。为此,我们提出了一种新颖的参数激活诱导分层隐式表示框架,称为NAME,它基于隐式神经表示(INRs)。我们的方法引入了一种分层时间编码机制,可以从多个时间尺度上提取运动序列的特征,从而有效地捕获复杂的时序模式。此外,我们将由傅里叶变换驱动的自定义参数激活函数集成到基于MLP的解码器中,以增强连续表示的表达能力。这种参数化公式显著增强了模型以高精度表示复杂运动行为的能力。在多个基准数据集上的大量评估证明了我们提出的方法的有效性和鲁棒性。

🔬 方法详解

问题定义:论文旨在解决人体运动序列补全问题,特别是针对任意帧率下的运动插值、中间帧生成和外推。现有方法通常依赖于离散的帧表示,难以处理任意帧率的需求,且可能导致运动不连贯或不平滑。因此,如何建立一个能够处理任意时间点运动信息的连续表示是关键挑战。

核心思路:论文的核心思路是将人体运动序列表示为一个连续的函数,通过隐式神经表示(INR)来建模这个函数。通过学习一个将时间点映射到运动姿态的函数,可以实现对任意时间点的运动姿态进行预测,从而解决任意帧率下的运动补全问题。分层时间编码和参数激活函数的设计旨在增强INR的表达能力,使其能够更好地捕捉复杂的运动模式。

技术框架:NAME框架主要包含三个模块:分层时间编码模块、MLP解码器和参数激活函数。首先,分层时间编码模块从输入运动序列中提取多尺度的时间特征。然后,MLP解码器将时间编码作为输入,预测对应时间点的运动姿态。最后,参数激活函数被集成到MLP解码器中,以增强其表达能力。整个框架通过最小化预测姿态与真实姿态之间的差异进行训练。

关键创新:论文的关键创新在于提出了参数激活诱导的分层隐式表示框架NAME。具体来说,分层时间编码能够有效捕获不同时间尺度的运动模式,而参数激活函数则增强了MLP解码器的表达能力,使其能够更准确地表示复杂的运动行为。与传统的INR方法相比,NAME能够更好地处理人体运动序列的复杂性和连续性。

关键设计:分层时间编码采用多层Transformer结构,每一层处理不同时间尺度的特征。参数激活函数基于傅里叶变换,通过学习傅里叶系数来调整激活函数的形状,从而增强模型的表达能力。损失函数采用均方误差(MSE),衡量预测姿态与真实姿态之间的差异。网络结构采用多层感知机(MLP),具体层数和神经元数量根据实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NAME框架在Human3.6M、AMASS等多个基准数据集上取得了显著的性能提升。与现有方法相比,NAME在运动插值、中间帧生成和外推任务上均表现出更好的精度和鲁棒性。例如,在Human3.6M数据集上,NAME的平均误差降低了10%以上,证明了其在运动补全方面的有效性。

🎯 应用场景

该研究成果可广泛应用于动画制作、游戏开发、虚拟现实等领域。通过任意帧率的运动补全,可以提高动画和游戏的流畅度和真实感。此外,该技术还可以用于运动分析、康复训练等领域,例如,通过对不完整的运动数据进行补全,可以更准确地评估运动员的运动表现或患者的康复进展。未来,该技术有望进一步扩展到其他类型的时序数据处理任务中。

📄 摘要(原文)

Physical motions are inherently continuous, and higher camera frame rates typically contribute to improved smoothness and temporal coherence. For the first time, we explore continuous representations of human motion sequences, featuring the ability to interpolate, inbetween, and even extrapolate any input motion sequences at arbitrary frame rates. To achieve this, we propose a novel parametric activation-induced hierarchical implicit representation framework, referred to as NAME, based on Implicit Neural Representations (INRs). Our method introduces a hierarchical temporal encoding mechanism that extracts features from motion sequences at multiple temporal scales, enabling effective capture of intricate temporal patterns. Additionally, we integrate a custom parametric activation function, powered by Fourier transformations, into the MLP-based decoder to enhance the expressiveness of the continuous representation. This parametric formulation significantly augments the model's ability to represent complex motion behaviors with high accuracy. Extensive evaluations across several benchmark datasets demonstrate the effectiveness and robustness of our proposed approach.