Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer

📄 arXiv: 2404.04819v1 📥 PDF

作者: Hyeongjin Nam, Daniel Sungho Jung, Gyeongsik Moon, Kyoung Mu Lee

分类: cs.CV

发布日期: 2024-04-07

备注: Published at CVPR 2024, 19 pages including the supplementary material

🔗 代码/项目: GITHUB


💡 一句话要点

提出CONTHO以解决3D人类与物体联合重建问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 人类-物体交互 接触估计 Transformer 计算机视觉

📋 核心要点

  1. 现有方法未能充分利用人类与物体的接触信息,导致3D重建精度不足。
  2. CONTHO通过初步重建3D人类和物体,并利用接触信息进行精细化,提升重建质量。
  3. 实验结果显示,CONTHO在接触估计和联合重建任务中均超越了现有最先进方法。

📝 摘要(中文)

人类与物体的接触信息是理解人类如何与物体物理交互的重要线索。然而,利用这种接触信息进行3D人类与物体的联合重建仍未得到广泛探索。本文提出了一种新颖的联合3D人类-物体重建方法CONTHO,能够有效利用人类与物体之间的接触信息。该方法包含两个核心设计:1)3D引导的接触估计;2)基于接触的3D人类与物体的精细化。首先,CONTHO通过初步重建3D人类和物体,并将其作为接触估计的明确3D指导。其次,提出了一种新颖的基于接触的精细化Transformer,有效聚合人类特征和物体特征,从而实现准确的3D重建。实验结果表明,CONTHO在接触估计和3D重建方面均达到了最先进的性能。

🔬 方法详解

问题定义:本文旨在解决从单幅图像中联合重建3D人类与物体的问题。现有方法在利用人类与物体接触信息方面存在不足,导致重建精度低下。

核心思路:CONTHO的核心思路是通过初步重建得到的3D模型来指导接触估计,并基于接触信息进行重建精细化。这种设计能够有效减少错误的特征关联,提升重建的准确性。

技术框架:CONTHO的整体架构包括两个主要模块:3D引导的接触估计模块和基于接触的精细化Transformer模块。首先,系统重建初步的3D人类和物体,然后利用这些重建结果进行接触估计,最后通过Transformer进行特征聚合和重建精细化。

关键创新:CONTHO的关键创新在于引入了基于接触的精细化Transformer,该模块有效地聚合了人类和物体的特征,避免了错误的特征关联。这一设计与传统方法相比,显著提升了重建的准确性。

关键设计:在技术细节上,CONTHO采用了特定的损失函数来优化接触估计的准确性,并设计了适应性强的网络结构,以便更好地处理人类与物体之间的复杂交互。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CONTHO在接触估计和3D重建任务中均达到了最先进的性能,具体在接触估计上提升了XX%,在3D重建精度上超越了现有基线方法,展示了显著的效果提升。

🎯 应用场景

该研究在虚拟现实、增强现实和人机交互等领域具有广泛的应用潜力。通过准确的3D重建,能够提升用户体验,促进人机协作和智能机器人技术的发展,具有重要的实际价值和未来影响。

📄 摘要(原文)

Human-object contact serves as a strong cue to understand how humans physically interact with objects. Nevertheless, it is not widely explored to utilize human-object contact information for the joint reconstruction of 3D human and object from a single image. In this work, we present a novel joint 3D human-object reconstruction method (CONTHO) that effectively exploits contact information between humans and objects. There are two core designs in our system: 1) 3D-guided contact estimation and 2) contact-based 3D human and object refinement. First, for accurate human-object contact estimation, CONTHO initially reconstructs 3D humans and objects and utilizes them as explicit 3D guidance for contact estimation. Second, to refine the initial reconstructions of 3D human and object, we propose a novel contact-based refinement Transformer that effectively aggregates human features and object features based on the estimated human-object contact. The proposed contact-based refinement prevents the learning of erroneous correlation between human and object, which enables accurate 3D reconstruction. As a result, our CONTHO achieves state-of-the-art performance in both human-object contact estimation and joint reconstruction of 3D human and object. The code is publicly available at https://github.com/dqj5182/CONTHO_RELEASE.