Towards Consistent Long-Term Pose Generation

📄 arXiv: 2507.18382v1 📥 PDF

作者: Yayuan Li, Filippos Bellos, Jason Corso

分类: cs.CV

发布日期: 2025-07-24

备注: 10 pages, 5 figures, 4 tables


💡 一句话要点

提出一种单阶段姿态生成方法,解决长时序姿态生成中时序一致性问题。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 姿态生成 长时序建模 单阶段生成 相对运动预测 时序一致性

📋 核心要点

  1. 现有姿态生成方法依赖中间表示,导致长时序生成中误差累积和时序不一致。
  2. 提出单阶段架构,直接在连续坐标空间生成姿态,避免中间表示并保持训练推理一致性。
  3. 实验表明,该方法在长时序姿态生成任务上显著优于现有方法,尤其在时序一致性方面。

📝 摘要(中文)

当前姿态生成方法严重依赖中间表示,无论是采用量化的两阶段流程还是自回归模型,都会在推理过程中累积误差。这种根本性限制导致性能下降,尤其是在保持时间连贯性至关重要的长期姿态生成中。我们提出了一种新颖的单阶段架构,该架构直接从最小的上下文(单个RGB图像和文本描述)在连续坐标空间中生成姿态,同时保持训练和推理之间的一致分布。我们的关键创新在于,通过直接操作姿态坐标,采用保持空间关系的相对运动预测机制和统一的占位符令牌方法,消除了对中间表示或基于令牌的生成的需求,从而实现了在训练和推理期间具有相同行为的单次前向生成。通过在Penn Action和第一人称手部动作基准(F-PHAB)数据集上的大量实验,我们证明了我们的方法明显优于现有的基于量化和自回归的方法,尤其是在长期生成场景中。

🔬 方法详解

问题定义:现有姿态生成方法,如基于量化的两阶段方法和自回归模型,在长时序生成任务中表现不佳。主要原因是这些方法依赖于中间表示(例如离散的姿态token),导致信息损失和误差累积,最终影响生成姿态的时序一致性。

核心思路:论文的核心思路是避免使用中间表示,直接在连续坐标空间中生成姿态。通过预测相对运动而非绝对姿态,保持空间关系,并使用统一的占位符令牌方法,确保训练和推理过程中的行为一致性,从而提高长时序姿态生成的时序一致性。

技术框架:该方法采用单阶段架构,输入为单个RGB图像和文本描述,输出为连续的姿态坐标序列。整体流程包括:1) 特征提取:使用卷积神经网络提取图像特征,并使用文本编码器提取文本特征;2) 姿态生成:使用提出的相对运动预测模块,根据图像和文本特征,逐步生成姿态序列;3) 占位符处理:使用统一的占位符令牌,处理不同长度的姿态序列,确保训练和推理的一致性。

关键创新:该方法最重要的创新点在于:1) 直接在连续坐标空间生成姿态,避免了中间表示带来的信息损失;2) 提出相对运动预测机制,保持空间关系,提高时序一致性;3) 使用统一的占位符令牌方法,确保训练和推理过程中的行为一致性。与现有方法的本质区别在于,该方法是一种端到端的单阶段生成方法,无需中间表示,从而避免了误差累积。

关键设计:相对运动预测模块通过预测相邻帧之间的姿态变化量来生成姿态序列。损失函数包括姿态回归损失和对抗损失,其中姿态回归损失用于约束生成姿态的准确性,对抗损失用于提高生成姿态的真实性。网络结构采用Transformer架构,利用自注意力机制捕捉姿态序列中的时序依赖关系。占位符令牌的设计保证了模型可以处理不同长度的序列,并且在训练和推理时行为一致。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Penn Action和F-PHAB数据集上的实验结果表明,该方法在长时序姿态生成任务上显著优于现有的基于量化和自回归的方法。例如,在F-PHAB数据集上,该方法在长期生成场景中的性能提升超过10%,并且在时序一致性方面取得了显著改善。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、动画制作等领域,用于生成逼真且时序一致的角色动作。例如,可以根据用户的文本描述和少量图像,生成一段流畅的角色舞蹈动画。此外,该技术还可用于机器人控制,使机器人能够根据指令执行复杂的动作序列。

📄 摘要(原文)

Current approaches to pose generation rely heavily on intermediate representations, either through two-stage pipelines with quantization or autoregressive models that accumulate errors during inference. This fundamental limitation leads to degraded performance, particularly in long-term pose generation where maintaining temporal coherence is crucial. We propose a novel one-stage architecture that directly generates poses in continuous coordinate space from minimal context - a single RGB image and text description - while maintaining consistent distributions between training and inference. Our key innovation is eliminating the need for intermediate representations or token-based generation by operating directly on pose coordinates through a relative movement prediction mechanism that preserves spatial relationships, and a unified placeholder token approach that enables single-forward generation with identical behavior during training and inference. Through extensive experiments on Penn Action and First-Person Hand Action Benchmark (F-PHAB) datasets, we demonstrate that our approach significantly outperforms existing quantization-based and autoregressive methods, especially in long-term generation scenarios.