StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset

📄 arXiv: 2407.20545v1 📥 PDF

作者: Chaofan Huo, Ye Shi, Yuexin Ma, Lan Xu, Jingyi Yu, Jingya Wang

分类: cs.CV, cs.GR

发布日期: 2024-07-30

备注: Accepted by IJCAI-23

DOI: 10.24963/ijcai.2023/100


💡 一句话要点

StackFLOW:利用堆叠归一化流与偏移量进行单目人体-物体三维重建

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人体-物体交互 三维重建 单目视觉 归一化流 空间关系

📋 核心要点

  1. 现有方法在捕捉单目图像中人体与物体的三维空间关系时,存在编码效率或细节表达上的不足。
  2. 论文提出使用人体和物体表面采样点之间的偏移量来表示空间关系,并利用堆叠归一化流学习其后验分布。
  3. 实验结果表明,该方法在BEHAVE和InterCap数据集上取得了显著成果,验证了其有效性。

📝 摘要(中文)

本文旨在解决从单目图像中感知三维人体-物体交互的问题,关键在于建模和捕捉人体与物体的三维空间关系。我们提出使用人体网格和物体网格表面密集采样点之间的“人体-物体偏移量”来表示这种空间关系。与以往使用接触图或隐式距离场的方法相比,我们的方法能够以简单高效的方式编码人体和物体之间高度精细的空间相关性。基于此表示,我们提出了堆叠归一化流(StackFLOW)来推断图像中人体-物体空间关系的后验分布。在优化阶段,我们通过最大化基于后验分布的样本似然性,并最小化2D-3D对应点的重投影误差,来微调人体姿态和物体6D姿态。大量实验结果表明,我们的方法在BEHAVE和InterCap两个具有挑战性的基准数据集上取得了令人印象深刻的结果。

🔬 方法详解

问题定义:论文旨在解决单目图像中人体与物体交互的三维重建问题,即如何准确地估计人体姿态和物体6D姿态,并捕捉它们之间的空间关系。现有方法,如基于接触图或隐式距离场的方法,在编码人体-物体空间关系时,要么不够高效,要么无法捕捉到足够精细的细节。

核心思路:论文的核心思路是利用人体和物体表面密集采样点之间的偏移量(Human-Object Offset)来表示人体-物体之间的空间关系。这种表示方法简单且高效,能够捕捉到人体和物体之间高度精细的空间相关性。同时,利用堆叠归一化流(Stacked Normalizing Flow)来学习这种空间关系的后验分布,从而能够从图像中推断出合理的人体-物体空间关系。

技术框架:整体框架包含以下几个主要步骤:1) 从单目图像中提取特征;2) 使用预训练的人体模型和物体模型初始化人体姿态和物体6D姿态;3) 计算人体和物体表面采样点之间的偏移量;4) 使用堆叠归一化流学习偏移量的后验分布;5) 通过最大化后验分布的似然性和最小化重投影误差来优化人体姿态和物体6D姿态。

关键创新:最重要的技术创新点在于使用人体-物体偏移量来表示人体-物体之间的空间关系,以及使用堆叠归一化流来学习这种空间关系的后验分布。与现有方法相比,这种表示方法更加简单高效,并且能够捕捉到更加精细的空间相关性。堆叠归一化流能够学习到复杂的后验分布,从而能够从图像中推断出更加合理的人体-物体空间关系。

关键设计:论文使用了堆叠的归一化流结构,每一层都包含一个可逆的变换函数,用于将复杂的后验分布逐步变换为简单的标准高斯分布。损失函数包括两部分:一部分是基于后验分布的似然性损失,用于约束偏移量的分布;另一部分是2D-3D对应点的重投影误差,用于约束人体姿态和物体6D姿态的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在BEHAVE和InterCap两个具有挑战性的数据集上进行了评估,取得了显著的成果。例如,在BEHAVE数据集上,该方法在人体姿态估计和物体6D姿态估计方面均优于现有方法。实验结果表明,该方法能够有效地捕捉人体和物体之间的空间关系,并实现准确的三维重建。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、增强现实、机器人操作等领域。例如,在人机交互中,可以利用该技术实现更加自然和逼真的人机交互体验。在机器人操作中,可以帮助机器人更好地理解和操作物体,从而完成更加复杂的任务。未来,该技术有望进一步发展,实现更加鲁棒和精确的人体-物体三维重建。

📄 摘要(原文)

Modeling and capturing the 3D spatial arrangement of the human and the object is the key to perceiving 3D human-object interaction from monocular images. In this work, we propose to use the Human-Object Offset between anchors which are densely sampled from the surface of human mesh and object mesh to represent human-object spatial relation. Compared with previous works which use contact map or implicit distance filed to encode 3D human-object spatial relations, our method is a simple and efficient way to encode the highly detailed spatial correlation between the human and object. Based on this representation, we propose Stacked Normalizing Flow (StackFLOW) to infer the posterior distribution of human-object spatial relations from the image. During the optimization stage, we finetune the human body pose and object 6D pose by maximizing the likelihood of samples based on this posterior distribution and minimizing the 2D-3D corresponding reprojection loss. Extensive experimental results show that our method achieves impressive results on two challenging benchmarks, BEHAVE and InterCap datasets.