Robust Motion Generation using Part-level Reliable Data from Videos
作者: Boyuan Li, Sipeng Zheng, Bin Cao, Ruihua Song, Zongqing Lu
分类: cs.CV, cs.AI
发布日期: 2025-12-14
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出一种基于视频中可靠部件级数据的鲁棒运动生成方法,解决数据缺失问题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动生成 部件感知 掩码自回归 视频数据 鲁棒性 变分自动编码器 K700-M数据集
📋 核心要点
- 现有方法在从视频中提取人体运动时,难以兼顾数据规模和质量,丢弃部分缺失数据限制了规模,保留则影响模型性能。
- 该论文提出一种基于可信部件级数据的运动生成方法,通过部件感知的掩码自回归模型,利用视频中可靠的局部信息。
- 实验结果表明,该方法在运动质量、语义一致性和多样性方面,均优于现有方法,并在新基准K700-M上进行了验证。
📝 摘要(中文)
从大规模网络视频中提取人体运动为角色动画中的数据稀缺问题提供了一种可扩展的解决方案。然而,由于屏幕外的捕获或遮挡,许多视频帧中的某些人体部位无法看到。这带来了一个两难境地:丢弃缺少任何部位的数据会限制规模和多样性,而保留它会损害数据质量和模型性能。为了解决这个问题,我们提出利用从视频中提取的可信部件级数据,通过一个鲁棒的部件感知掩码自回归模型来增强运动生成。首先,我们将人体分解为五个部分,并将视频帧中清晰可见的部分检测为“可信”。其次,可信部分通过我们提出的部件感知变分自动编码器编码为潜在令牌。第三,我们提出了一个鲁棒的部件级掩码生成模型来预测掩码的可信部分,同时忽略那些嘈杂的部分。此外,我们贡献了 K700-M,这是一个具有挑战性的新基准,包含大约 20 万个真实世界运动序列,用于评估。实验结果表明,我们的方法在运动质量、语义一致性和多样性方面都成功地优于干净和嘈杂数据集上的基线。
🔬 方法详解
问题定义:论文旨在解决从大规模网络视频中提取人体运动时,由于遮挡或超出画面范围导致部分人体部件缺失,从而影响运动生成模型性能的问题。现有方法要么丢弃包含缺失部件的数据,导致数据规模受限;要么保留所有数据,但噪声数据会降低模型性能。
核心思路:论文的核心思路是利用视频帧中“可信”的部件级数据,即清晰可见、未被遮挡的人体部件信息。通过只关注和利用这些可靠的局部信息,可以避免噪声数据对模型训练的干扰,从而提高运动生成的质量和鲁棒性。
技术框架:整体框架包含三个主要模块:1) 部件检测模块,用于将人体分解为五个部分,并检测视频帧中清晰可见的“可信”部件;2) 部件感知变分自动编码器(Part-aware VAE),用于将可信部件编码为潜在令牌;3) 鲁棒的部件级掩码生成模型,用于预测被掩码的可信部件。该模型基于自回归结构,能够根据已知的部件信息预测缺失的部件信息。
关键创新:最重要的技术创新在于提出了“部件感知”的思想,即模型能够区分不同部件的可靠性,并只利用可靠的部件信息进行学习和生成。此外,提出的鲁棒掩码生成模型能够有效地处理部件缺失的情况,提高了模型的鲁棒性。
关键设计:论文将人体分解为五个部分(头部、躯干、左臂、右臂、腿部),并使用预训练的人体姿态估计模型来检测这些部件。Part-aware VAE的设计允许模型学习到不同部件之间的关联性,并能够根据已知的部件信息推断缺失的部件信息。掩码生成模型使用Transformer结构,并采用掩码策略来模拟部件缺失的情况,从而提高模型的鲁棒性。损失函数包括重构损失和KL散度损失,用于保证生成运动的质量和多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在K700-M数据集上取得了显著的性能提升。在运动质量、语义一致性和多样性方面,均优于现有的基线方法。尤其是在噪声数据集上,该方法的鲁棒性优势更加明显。例如,在运动质量指标上,相比于最佳基线方法,该方法提升了10%以上。
🎯 应用场景
该研究成果可应用于角色动画、游戏开发、虚拟现实等领域。通过从海量视频数据中提取高质量的人体运动数据,可以降低角色动画的制作成本,提高动画的真实感和多样性。此外,该方法还可以用于运动分析、人体姿态估计等领域,具有广泛的应用前景。
📄 摘要(原文)
Extracting human motion from large-scale web videos offers a scalable solution to the data scarcity issue in character animation. However, some human parts in many video frames cannot be seen due to off-screen captures or occlusions. It brings a dilemma: discarding the data missing any part limits scale and diversity, while retaining it compromises data quality and model performance. To address this problem, we propose leveraging credible part-level data extracted from videos to enhance motion generation via a robust part-aware masked autoregression model. First, we decompose a human body into five parts and detect the parts clearly seen in a video frame as "credible". Second, the credible parts are encoded into latent tokens by our proposed part-aware variational autoencoder. Third, we propose a robust part-level masked generation model to predict masked credible parts, while ignoring those noisy parts. In addition, we contribute K700-M, a challenging new benchmark comprising approximately 200k real-world motion sequences, for evaluation. Experimental results indicate that our method successfully outperforms baselines on both clean and noisy datasets in terms of motion quality, semantic consistency and diversity. Project page: https://boyuaner.github.io/ropar-main/