Robust Long-term Test-Time Adaptation for 3D Human Pose Estimation through Motion Discretization

📄 arXiv: 2511.18851v1 📥 PDF

作者: Yilin Wen, Kechuan Dong, Yusuke Sugano

分类: cs.CV

发布日期: 2025-11-24

备注: Accepted by AAAI 2026, main track


💡 一句话要点

提出基于运动离散化的鲁棒长期测试时自适应3D人体姿态估计方法

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D人体姿态估计 测试时自适应 运动离散化 无监督学习 长期视频 误差累积 自我重放

📋 核心要点

  1. 在线自适应的3D人体姿态估计易受误差累积影响,导致性能随时间下降。
  2. 通过运动离散化,利用无监督聚类得到锚定运动,并引入软重置机制,提升鲁棒性。
  3. 实验表明,该方法优于现有在线测试时自适应方法,验证了设计的有效性。

📝 摘要(中文)

本文提出了一种新颖的解决方案,通过运动离散化来解决3D人体姿态估计中在线测试时自适应的误差累积问题。该方法利用潜在运动表示空间中的无监督聚类来获得一组锚定运动,这些锚定运动的规律性有助于监督人体姿态估计器,并实现有效的自我重放。此外,引入了一种有效的软重置机制,通过在连续自适应期间将姿态估计器恢复到其指数移动平均值来实现。通过持续适应同一对象的域外流测试视频来检查长期在线自适应,从而可以在整个流观察过程中捕获一致的个人形状和运动特征。通过减轻误差累积,该解决方案能够鲁棒地利用这些个人特征来提高准确性。实验表明,该解决方案优于以前的在线测试时自适应方法,并验证了设计选择。

🔬 方法详解

问题定义:现有的在线测试时自适应方法在3D人体姿态估计中面临误差累积的问题。由于模型在未标记的测试数据上进行自监督学习,不完美的预测会逐渐累积误差,导致长期性能下降。尤其是在处理长期视频流时,这种误差累积会严重影响姿态估计的准确性。

核心思路:本文的核心思路是通过运动离散化来引入运动的规律性,从而约束姿态估计器的学习过程,减少误差累积。具体来说,通过无监督聚类将运动表示空间划分为若干个离散的锚定运动,利用这些锚定运动来监督姿态估计器的训练。此外,引入软重置机制,定期将姿态估计器恢复到其历史状态,以防止模型过度适应噪声数据。

技术框架:整体框架包含以下几个主要模块:1) 姿态估计器:用于从视频帧中估计3D人体姿态。2) 运动表示提取器:用于提取连续帧之间的运动表示。3) 无监督聚类模块:用于将运动表示空间划分为若干个簇,每个簇代表一个锚定运动。4) 自我重放模块:利用锚定运动来生成伪标签,用于监督姿态估计器的训练。5) 软重置模块:定期将姿态估计器恢复到其指数移动平均值。

关键创新:最重要的创新点在于利用运动离散化来引入运动的规律性,从而约束姿态估计器的学习过程。与现有方法相比,该方法不需要人工标注的运动标签,而是通过无监督聚类自动学习运动模式。此外,软重置机制能够有效地防止模型过度适应噪声数据,提高模型的鲁棒性。

关键设计:在运动表示提取方面,可以使用例如光流、骨骼运动等特征。无监督聚类可以使用K-means等算法。自我重放模块可以通过将锚定运动与姿态估计器的输出进行比较,计算一致性损失。软重置模块可以通过指数移动平均(EMA)来维护姿态估计器的历史状态,并定期将其权重恢复到EMA值。

📊 实验亮点

实验结果表明,该方法在长期测试时自适应任务中取得了显著的性能提升。与现有方法相比,该方法能够更有效地减少误差累积,提高姿态估计的准确性和鲁棒性。具体来说,该方法在多个数据集上都取得了state-of-the-art的结果,并且在长期视频流上的性能提升尤为明显。

🎯 应用场景

该研究成果可应用于视频监控、人机交互、虚拟现实等领域。例如,在视频监控中,可以利用该方法对监控视频中的人体姿态进行长期跟踪和分析,从而实现异常行为检测。在人机交互中,可以利用该方法实现更自然、更准确的人体姿态识别,从而提高交互体验。在虚拟现实中,可以利用该方法实现更逼真的人体动作捕捉,从而增强沉浸感。

📄 摘要(原文)

Online test-time adaptation addresses the train-test domain gap by adapting the model on unlabeled streaming test inputs before making the final prediction. However, online adaptation for 3D human pose estimation suffers from error accumulation when relying on self-supervision with imperfect predictions, leading to degraded performance over time. To mitigate this fundamental challenge, we propose a novel solution that highlights the use of motion discretization. Specifically, we employ unsupervised clustering in the latent motion representation space to derive a set of anchor motions, whose regularity aids in supervising the human pose estimator and enables efficient self-replay. Additionally, we introduce an effective and efficient soft-reset mechanism by reverting the pose estimator to its exponential moving average during continuous adaptation. We examine long-term online adaptation by continuously adapting to out-of-domain streaming test videos of the same individual, which allows for the capture of consistent personal shape and motion traits throughout the streaming observation. By mitigating error accumulation, our solution enables robust exploitation of these personal traits for enhanced accuracy. Experiments demonstrate that our solution outperforms previous online test-time adaptation methods and validate our design choices.