In-Hand 3D Object Reconstruction from a Monocular RGB Video

📄 arXiv: 2312.16425v1 📥 PDF

作者: Shijian Jiang, Qi Ye, Rengan Xie, Yuchi Huo, Xiang Li, Yang Zhou, Jiming Chen

分类: cs.CV

发布日期: 2023-12-27

备注: Accepted by AAAI2024

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于单目RGB视频的手持物体三维重建方法,解决接触区域遮挡问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 三维重建 单目视觉 手持物体 遮挡处理 非模态补全

📋 核心要点

  1. 现有方法难以准确重建手与物体接触区域的形状,主要原因是手部遮挡导致信息缺失。
  2. 提出结合2D非模态补全和物理接触约束的方法,利用先验知识辅助遮挡区域的重建。
  3. 实验结果表明,该方法在HO3D和HOD数据集上显著提升了重建质量,优于现有技术。

📝 摘要(中文)

本文旨在从静态RGB相机拍摄的手部旋转物体的单目视频中重建三维物体。先前使用隐式神经表示从多视角图像中恢复通用手持物体几何形状的方法,在物体的可见部分取得了令人信服的结果。然而,由于遮挡,这些方法在精确捕捉手部与物体接触区域内的形状方面表现不佳。本文提出了一种新方法,通过结合2D遮挡推断和物理接触约束的先验知识来处理遮挡下的表面重建。对于前者,我们引入了一个物体非模态补全网络来推断遮挡下物体的2D完整掩码。为了确保预测的2D非模态掩码的准确性和视角一致性,我们设计了一种用于非模态掩码细化和3D重建的联合优化方法。对于后者,我们在接触区域的局部几何形状上施加穿透和吸引约束。我们在HO3D和HOD数据集上评估了我们的方法,并证明它在重建表面质量方面优于最先进的方法,在HO3D上提高了52%,在HOD上提高了20%。项目网页:https://east-j.github.io/ihor。

🔬 方法详解

问题定义:论文旨在解决从单目RGB视频中重建手持物体三维模型的问题,尤其关注手与物体接触区域由于遮挡导致的重建质量下降。现有方法在可见区域表现良好,但在接触区域精度不足,无法准确捕捉物体在该区域的几何形状。

核心思路:论文的核心思路是利用先验知识来弥补遮挡带来的信息缺失。具体来说,通过2D非模态补全网络预测被遮挡物体的完整掩码,并结合物理接触约束来规范接触区域的几何形状,从而提高重建精度。

技术框架:整体框架包含以下几个主要模块:1) 2D非模态补全网络,用于预测被手遮挡物体的完整2D掩码;2) 联合优化模块,同时优化2D非模态掩码和3D重建结果,确保视角一致性;3) 物理接触约束模块,在接触区域施加穿透和吸引约束,规范局部几何形状。整个流程通过迭代优化,最终得到高质量的3D重建结果。

关键创新:论文的关键创新在于:1) 提出了一种基于2D非模态补全网络的遮挡处理方法,能够有效推断被遮挡区域的形状;2) 设计了一种联合优化策略,同时优化2D掩码和3D模型,保证视角一致性;3) 引入了物理接触约束,利用手与物体之间的物理关系来规范重建结果。与现有方法相比,该方法更有效地利用了先验知识,提高了重建精度。

关键设计:在2D非模态补全网络中,使用了U-Net结构,并引入了注意力机制来关注遮挡区域。联合优化模块采用了可微分渲染技术,使得2D掩码的优化可以反向传播到3D重建模块。物理接触约束通过惩罚穿透和吸引力来实现,具体形式为损失函数中的正则项。损失函数综合考虑了重建误差、掩码误差和物理约束,通过加权求和进行优化。

📊 实验亮点

实验结果表明,该方法在HO3D数据集上实现了52%的重建质量提升,在HOD数据集上实现了20%的提升,显著优于现有最先进的方法。这些提升主要体现在手与物体接触区域的重建精度上,验证了该方法在处理遮挡问题方面的有效性。

🎯 应用场景

该研究成果可应用于机器人操作、人机交互、虚拟现实/增强现实等领域。例如,机器人可以利用该技术理解并操作手持物体,用户可以在VR/AR环境中与虚拟物体进行更自然的交互。未来,该技术有望进一步发展,实现更复杂场景下的三维重建和物体操作。

📄 摘要(原文)

Our work aims to reconstruct a 3D object that is held and rotated by a hand in front of a static RGB camera. Previous methods that use implicit neural representations to recover the geometry of a generic hand-held object from multi-view images achieved compelling results in the visible part of the object. However, these methods falter in accurately capturing the shape within the hand-object contact region due to occlusion. In this paper, we propose a novel method that deals with surface reconstruction under occlusion by incorporating priors of 2D occlusion elucidation and physical contact constraints. For the former, we introduce an object amodal completion network to infer the 2D complete mask of objects under occlusion. To ensure the accuracy and view consistency of the predicted 2D amodal masks, we devise a joint optimization method for both amodal mask refinement and 3D reconstruction. For the latter, we impose penetration and attraction constraints on the local geometry in contact regions. We evaluate our approach on HO3D and HOD datasets and demonstrate that it outperforms the state-of-the-art methods in terms of reconstruction surface quality, with an improvement of $52\%$ on HO3D and $20\%$ on HOD. Project webpage: https://east-j.github.io/ihor.