StableMotion: Training Motion Cleanup Models with Unpaired Corrupted Data
作者: Yuxuan Mu, Hung Yu Ling, Yi Shi, Ismael Baira Ojeda, Pengcheng Xi, Chang Shu, Fabio Zinno, Xue Bin Peng
分类: cs.CV, cs.AI, cs.GR
发布日期: 2025-05-06 (更新: 2025-09-15)
备注: Accepted for SIGGRAPH Asia 2025
💡 一句话要点
StableMotion:利用非配对的损坏数据训练运动清理模型,提升动作捕捉质量。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 动作捕捉 运动清理 扩散模型 非配对学习 运动质量指标
📋 核心要点
- 现有动作捕捉数据清理方法依赖配对的干净-损坏数据,获取成本高昂,限制了其在实际生产环境中的应用。
- StableMotion通过引入运动质量指标,实现了在非配对损坏数据上的训练,降低了对高质量数据的依赖。
- 实验表明,StableMotion能有效减少运动跳变和冻结帧等伪影,显著提升了动作捕捉数据的质量。
📝 摘要(中文)
动作捕捉(mocap)数据由于传感器不准确和后处理问题,经常出现视觉上的突兀伪影。清理这些损坏的数据需要人工专家的付出,成本高且耗时。先前的数据驱动的运动清理方法有望自动化此过程,但通常需要领域内的配对的损坏-到-干净的训练数据。构建此类配对数据集需要访问高质量、相对无伪影的运动片段,这通常需要费力的人工清理。本文提出了StableMotion,一种简单而有效的方法,可以直接从需要清理的非配对损坏数据集中训练运动清理模型。该方法的核心是引入运动质量指标,这些指标可以通过手动标记或启发式算法轻松注释,从而能够在具有混合质量的原始运动数据上训练质量感知的运动生成模型。在测试时,可以使用质量指标提示模型生成高质量的运动。该方法可以通过一个简单的基于扩散的框架来实现,从而形成一个统一的运动生成-判别模型,该模型可用于识别和修复损坏的帧。通过将StableMotion应用于SoccerMocap(一个包含真实世界运动伪影的245小时足球mocap数据集),证明了该方法在生产场景中训练原始mocap数据上的运动清理模型的有效性。训练后的模型有效地纠正了各种运动伪影,分别减少了68%的运动跳变和81%的冻结帧。
🔬 方法详解
问题定义:动作捕捉数据常包含伪影,人工清理成本高。现有数据驱动方法依赖配对的干净-损坏数据,难以获取,限制了其应用范围。因此,需要一种能够利用非配对损坏数据进行训练的运动清理方法。
核心思路:StableMotion的核心在于引入运动质量指标,将原始运动数据与质量信息关联起来。通过质量指标,模型可以学习到不同质量运动数据的特征,并在推理时生成高质量的运动。这种方法避免了对配对数据的依赖,降低了训练成本。
技术框架:StableMotion采用基于扩散模型的框架。整体流程包括:1) 使用手动标记或启发式算法标注运动质量指标;2) 利用标注的运动数据和质量指标训练扩散模型;3) 在推理阶段,通过质量指标引导模型生成高质量的运动。该框架包含运动生成器和判别器,形成统一的生成-判别模型。
关键创新:StableMotion的关键创新在于利用运动质量指标,实现了在非配对数据上的运动清理模型训练。与现有方法相比,StableMotion无需配对数据,降低了数据获取成本,更适用于实际生产环境。
关键设计:StableMotion使用扩散模型作为运动生成器,通过调整扩散过程中的噪声水平来控制生成运动的质量。运动质量指标被用作扩散模型的条件输入,引导模型生成高质量的运动。损失函数包括重建损失和对抗损失,用于保证生成运动的真实性和质量。
🖼️ 关键图片
📊 实验亮点
StableMotion在SoccerMocap数据集上进行了评估,该数据集包含245小时的真实足球运动数据。实验结果表明,StableMotion能够有效减少运动跳变和冻结帧等伪影,分别降低了68%和81%。这表明StableMotion在实际应用中具有显著的性能提升。
🎯 应用场景
StableMotion可广泛应用于游戏、电影、体育等领域的动作捕捉数据清理。它可以自动修复运动伪影,提高动作数据的质量和可用性,减少人工干预,降低制作成本。该技术还有潜力应用于其他类型的时间序列数据修复,例如传感器数据和视频数据。
📄 摘要(原文)
Motion capture (mocap) data often exhibits visually jarring artifacts due to inaccurate sensors and post-processing. Cleaning this corrupted data can require substantial manual effort from human experts, which can be a costly and time-consuming process. Previous data-driven motion cleanup methods offer the promise of automating this cleanup process, but often require in-domain paired corrupted-to-clean training data. Constructing such paired datasets requires access to high-quality, relatively artifact-free motion clips, which often necessitates laborious manual cleanup. In this work, we present StableMotion, a simple yet effective method for training motion cleanup models directly from unpaired corrupted datasets that need cleanup. The core component of our method is the introduction of motion quality indicators, which can be easily annotated - through manual labeling or heuristic algorithms - and enable training of quality-aware motion generation models on raw motion data with mixed quality. At test time, the model can be prompted to generate high-quality motions using the quality indicators. Our method can be implemented through a simple diffusion-based framework, leading to a unified motion generate-discriminate model, which can be used to both identify and fix corrupted frames. We demonstrate that our proposed method is effective for training motion cleanup models on raw mocap data in production scenarios by applying StableMotion to SoccerMocap, a 245-hour soccer mocap dataset containing real-world motion artifacts. The trained model effectively corrects a wide range of motion artifacts, reducing motion pops and frozen frames by 68% and 81%, respectively. Results and code are available at https://yxmu.foo/stablemotion-page