InterTrack: Tracking Human Object Interaction without Object Templates
作者: Xianghui Xie, Jan Eric Lenssen, Gerard Pons-Moll
分类: cs.CV
发布日期: 2024-08-25
备注: 17 pages, 13 figures and 6 tables. Project page: https://virtualhumans.mpi-inf.mpg.de/InterTrack/
💡 一句话要点
提出InterTrack,无需物体模板即可跟踪人与物体的交互
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人与物体交互 无模板跟踪 视频跟踪 姿态估计 SMPL模型
📋 核心要点
- 现有基于视频的人与物体交互跟踪方法依赖预定义的物体模板,而单帧方法缺乏时间一致性,限制了其应用。
- InterTrack将4D跟踪分解为逐帧姿态跟踪和规范形状优化,利用自编码器和姿态估计器分别处理人体和物体,实现无模板跟踪。
- 通过合成数据训练,并在BEHAVE和InterCap数据集上验证,InterTrack显著优于现有方法,并提供了可泛化的训练数据。
📝 摘要(中文)
本文提出了一种无需物体形状模板即可跟踪视频中人与物体交互的方法。我们将4D跟踪问题分解为逐帧姿态跟踪和规范形状优化。首先,应用单视图重建方法获得时间上不一致的逐帧交互重建结果。然后,对于人体,我们提出了一种高效的自编码器,直接从逐帧重建结果预测SMPL顶点,从而引入时间一致的对应关系。对于物体,我们引入了一种姿态估计器,利用时间信息来预测遮挡下的平滑物体旋转。为了训练我们的模型,我们提出了一种生成合成交互视频的方法,并合成了总共10小时的视频,包含8.5k个序列,具有完整的3D ground truth。在BEHAVE和InterCap上的实验表明,我们的方法显著优于以往基于模板的视频跟踪和单帧重建方法。我们提出的合成视频数据集也允许训练泛化到真实世界视频的基于视频的方法。我们的代码和数据集将公开发布。
🔬 方法详解
问题定义:现有基于视频的人与物体交互跟踪方法通常需要预先定义的物体模板,这限制了它们在处理各种物体时的泛化能力。而基于单帧图像的方法虽然不需要模板,但缺乏时间一致性,导致跟踪结果不稳定。因此,如何实现无需物体模板且具有时间一致性的人与物体交互跟踪是一个关键问题。
核心思路:本文的核心思路是将4D跟踪问题解耦为两个子问题:逐帧姿态跟踪和规范形状优化。通过这种解耦,可以分别处理人体和物体,并利用时间信息来提高跟踪的准确性和稳定性。对于人体,使用自编码器学习时间一致的顶点对应关系;对于物体,使用姿态估计器预测平滑的旋转。
技术框架:InterTrack的整体框架包含以下几个主要模块:1) 单视图重建:使用单视图重建方法获得初始的逐帧交互重建结果,但这些结果在时间上是不一致的。2) 人体姿态跟踪:使用自编码器从逐帧重建结果中预测SMPL顶点,从而建立时间一致的人体对应关系。3) 物体姿态估计:使用姿态估计器,利用时间信息预测平滑的物体旋转。4) 规范形状优化:对估计的人体和物体形状进行优化,以获得更准确的跟踪结果。
关键创新:InterTrack的关键创新在于:1) 提出了一种无需物体模板的人与物体交互跟踪方法,摆脱了对预定义模板的依赖。2) 引入了自编码器来学习时间一致的人体顶点对应关系,提高了人体跟踪的稳定性。3) 设计了一种姿态估计器,利用时间信息预测平滑的物体旋转,解决了遮挡问题。4) 提出了一个合成数据生成方法,用于训练模型,并提供了大规模的合成数据集。
关键设计:在人体姿态跟踪方面,自编码器的设计至关重要,它需要能够从不完美的逐帧重建结果中提取出鲁棒的SMPL顶点。在物体姿态估计方面,姿态估计器需要能够有效地利用时间信息,例如可以使用循环神经网络(RNN)来建模物体旋转的时间序列。此外,损失函数的设计也需要考虑时间一致性,例如可以使用平滑损失来约束相邻帧之间的物体旋转变化。
🖼️ 关键图片
📊 实验亮点
InterTrack在BEHAVE和InterCap数据集上取得了显著的性能提升,超越了以往基于模板的视频跟踪和单帧重建方法。此外,该论文提出的合成视频数据集为训练视频分析模型提供了宝贵的数据资源,有助于提高模型的泛化能力。具体性能数据未知,但摘要强调了“显著优于”现有方法。
🎯 应用场景
该研究成果可应用于视频监控、人机交互、虚拟现实、运动分析等领域。例如,在视频监控中,可以自动识别和跟踪人与物体的交互行为,从而提高安全性和效率。在人机交互中,可以实现更自然和流畅的人机交互体验。在虚拟现实中,可以创建更逼真和沉浸式的虚拟环境。在运动分析中,可以分析运动员的动作,从而提高训练效果。
📄 摘要(原文)
Tracking human object interaction from videos is important to understand human behavior from the rapidly growing stream of video data. Previous video-based methods require predefined object templates while single-image-based methods are template-free but lack temporal consistency. In this paper, we present a method to track human object interaction without any object shape templates. We decompose the 4D tracking problem into per-frame pose tracking and canonical shape optimization. We first apply a single-view reconstruction method to obtain temporally-inconsistent per-frame interaction reconstructions. Then, for the human, we propose an efficient autoencoder to predict SMPL vertices directly from the per-frame reconstructions, introducing temporally consistent correspondence. For the object, we introduce a pose estimator that leverages temporal information to predict smooth object rotations under occlusions. To train our model, we propose a method to generate synthetic interaction videos and synthesize in total 10 hour videos of 8.5k sequences with full 3D ground truth. Experiments on BEHAVE and InterCap show that our method significantly outperforms previous template-based video tracking and single-frame reconstruction methods. Our proposed synthetic video dataset also allows training video-based methods that generalize to real-world videos. Our code and dataset will be publicly released.