AvatarPose: Avatar-guided 3D Pose Estimation of Close Human Interaction from Sparse Multi-view Videos

📄 arXiv: 2408.02110v2 📥 PDF

作者: Feichi Lu, Zijian Dong, Jie Song, Otmar Hilliges

分类: cs.CV

发布日期: 2024-08-04 (更新: 2024-08-20)

备注: Project Page: https://eth-ait.github.io/AvatarPose/


💡 一句话要点

AvatarPose:利用个性化Avatar先验,解决稀疏多视角下近距离交互人体三维姿态估计难题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 三维姿态估计 多人交互 隐式神经Avatar 体积渲染 碰撞损失

📋 核心要点

  1. 现有方法依赖精确的2D关节点检测,但在多人近距离交互时,遮挡和身体接触导致2D检测困难,影响3D姿态估计。
  2. 该方法利用个性化的隐式神经Avatar作为先验,通过颜色和轮廓渲染损失直接优化3D姿态,避免了对噪声2D检测的依赖。
  3. 通过交替优化3D姿态和Avatar,并引入碰撞损失处理相互穿透问题,在多个数据集上取得了state-of-the-art的性能。

📝 摘要(中文)

本文提出了一种新颖的方法,利用个体化的隐式神经Avatar作为先验,显著提高了在稀疏多视角视频中估计多人近距离交互的三维姿态的鲁棒性和精度。该方法通过分层体积渲染从稀疏多视角视频中高效地重建Avatar。重建的Avatar先验允许基于颜色和轮廓渲染损失直接优化3D姿态,绕过了噪声2D检测带来的问题。为了处理相互穿透问题,本文在Avatar的重叠形状区域提出了碰撞损失,以增加穿透约束。此外,3D姿态和Avatar以交替的方式进行优化。实验结果表明,该方法在多个公共数据集上实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决从稀疏多视角视频中准确估计多人近距离交互时的3D姿态问题。现有方法通常依赖于精确的2D关节点检测,但在多人交互场景中,由于严重的遮挡和身体接触,2D关节点检测的精度会显著下降,从而导致3D姿态估计的性能瓶颈。因此,如何克服2D检测的局限性,实现鲁棒且精确的3D姿态估计是本研究的关键问题。

核心思路:论文的核心思路是利用个性化的隐式神经Avatar作为先验知识,指导3D姿态的估计。Avatar能够提供个体的形状和外观信息,从而在优化过程中提供更强的约束。通过直接优化3D姿态,使其渲染结果与输入图像一致,避免了对不准确的2D检测的依赖。同时,通过交替优化Avatar和3D姿态,可以相互促进,提高整体性能。

技术框架:整体框架包含Avatar重建和姿态优化两个主要阶段。首先,利用分层体积渲染技术从稀疏多视角视频中重建每个人的个性化Avatar。然后,基于重建的Avatar,通过颜色和轮廓渲染损失直接优化3D姿态。为了处理Avatar之间的相互穿透问题,引入了碰撞损失。最后,Avatar和3D姿态以交替的方式进行优化,直至收敛。

关键创新:最重要的技术创新点在于将个性化的隐式神经Avatar作为先验知识引入到多人3D姿态估计中。与传统的基于2D检测的方法相比,该方法能够绕过噪声2D检测的限制,直接从图像中优化3D姿态。此外,交替优化Avatar和3D姿态以及碰撞损失的设计,进一步提高了姿态估计的精度和鲁棒性。

关键设计:Avatar的重建采用分层体积渲染技术,可以有效地处理遮挡问题。颜色和轮廓渲染损失用于约束3D姿态的优化,使其渲染结果与输入图像一致。碰撞损失基于Avatar的重叠区域计算,用于惩罚Avatar之间的相互穿透。Avatar和3D姿态的交替优化策略,可以相互促进,提高整体性能。具体的参数设置和网络结构在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个公共数据集上取得了state-of-the-art的性能。与现有方法相比,该方法在3D姿态估计的精度和鲁棒性方面均有显著提升。具体的数据指标和对比结果在论文中有详细展示,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、动画制作等领域,尤其是在需要精确捕捉多人交互场景的应用中具有重要价值。例如,可以用于创建更逼真的虚拟社交体验,或者用于分析运动员的运动姿态,提高训练效果。未来,该技术有望进一步扩展到更复杂的场景,如人群行为分析、智能监控等。

📄 摘要(原文)

Despite progress in human motion capture, existing multi-view methods often face challenges in estimating the 3D pose and shape of multiple closely interacting people. This difficulty arises from reliance on accurate 2D joint estimations, which are hard to obtain due to occlusions and body contact when people are in close interaction. To address this, we propose a novel method leveraging the personalized implicit neural avatar of each individual as a prior, which significantly improves the robustness and precision of this challenging pose estimation task. Concretely, the avatars are efficiently reconstructed via layered volume rendering from sparse multi-view videos. The reconstructed avatar prior allows for the direct optimization of 3D poses based on color and silhouette rendering loss, bypassing the issues associated with noisy 2D detections. To handle interpenetration, we propose a collision loss on the overlapping shape regions of avatars to add penetration constraints. Moreover, both 3D poses and avatars are optimized in an alternating manner. Our experimental results demonstrate state-of-the-art performance on several public datasets.