Realistic Clothed Human and Object Joint Reconstruction from a Single Image
作者: Ayushi Dutta, Marco Pesavento, Marco Volino, Adrian Hilton, Armin Mustafa
分类: cs.CV
发布日期: 2025-02-25 (更新: 2025-03-08)
💡 一句话要点
提出基于隐式表达和注意力机制的框架,用于单图重建逼真的人体服装和物体
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人体重建 物体重建 隐式表达 注意力机制 生成扩散模型 单目视觉 服装建模
📋 核心要点
- 现有方法难以捕捉人体服装的细节,且人体与物体的遮挡导致重建质量下降和深度模糊。
- 提出一种基于注意力机制的神经隐式模型,结合全局和局部信息,并利用生成扩散模型修复遮挡区域。
- 在合成和真实数据集上验证了方法的有效性,重建质量优于现有方法,并提出了新的合成数据集。
📝 摘要(中文)
本文提出了一种新颖的隐式方法,用于从单张RGB图像中联合重建逼真的3D人体服装和物体。与现有方法使用基于模板或粗糙模型表示3D形状不同,本文首次使用隐式表达对人体和物体进行建模,从而捕捉更多逼真的细节,例如服装。由于人体与物体的遮挡以及2D图像中缺乏3D信息,这项任务极具挑战性,经常导致细节重建不佳和深度模糊。为了解决这些问题,本文提出了一种基于注意力机制的神经隐式模型,该模型利用来自输入人体-物体图像的像素对齐进行全局理解,并利用来自人体和物体图像的局部独立视图来提高真实感,例如服装细节。此外,该网络以从估计的人体-物体姿势先验导出的语义特征为条件,从而提供有关人体和物体共享空间的3D空间信息。为了处理物体造成的人体遮挡,本文使用生成扩散模型来修复遮挡区域,恢复丢失的细节。为了训练和评估,本文引入了一个合成数据集,其中包含相互遮挡的3D人体扫描和各种物体的渲染场景。在合成和真实世界数据集上的大量评估表明,所提出的人体-物体重建方法优于其他方法。
🔬 方法详解
问题定义:现有方法在单张RGB图像中联合重建3D人体和物体时,通常使用基于模板或粗糙的模型,无法捕捉服装等细节,并且由于人体与物体的相互遮挡以及单目视觉固有的深度模糊性,导致重建质量下降。
核心思路:本文的核心思路是使用隐式表达同时建模人体和物体,从而能够捕捉更精细的几何细节,例如服装的褶皱。此外,利用注意力机制融合全局场景信息和局部细节信息,并使用生成扩散模型来处理遮挡问题,从而提高重建的真实感和完整性。
技术框架:整体框架包含以下几个主要模块:1) 输入人体-物体图像;2) 使用姿态估计器提取人体和物体的姿态先验;3) 基于注意力机制的神经隐式模型,该模型以图像像素对齐信息和姿态先验作为输入,预测隐式表征;4) 使用生成扩散模型修复被遮挡的区域,恢复细节;5) 从隐式表征中提取3D网格模型。
关键创新:本文的关键创新在于:1) 首次使用隐式表达同时建模人体和物体,能够捕捉更精细的几何细节;2) 提出了一种基于注意力机制的神经隐式模型,能够有效融合全局场景信息和局部细节信息;3) 使用生成扩散模型来处理遮挡问题,提高重建的完整性。
关键设计:在网络结构方面,使用了注意力机制来融合不同尺度的特征。损失函数包括重建损失、姿态损失等,用于约束隐式表征的形状和姿态。生成扩散模型用于修复被遮挡的区域,其训练目标是生成逼真的图像内容。
🖼️ 关键图片
📊 实验亮点
该论文在合成数据集和真实数据集上进行了大量实验,结果表明,该方法在人体和物体的重建质量方面优于现有方法。尤其是在服装细节的重建方面,该方法能够捕捉到更精细的几何细节。此外,该论文还提出了一个新的合成数据集,为相关研究提供了有价值的资源。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏开发、动画制作等领域。例如,可以用于创建更逼真的虚拟人物和场景,或者用于在增强现实应用中将虚拟物体与真实人物进行自然的交互。此外,该技术还可以应用于服装设计和人体建模等领域,具有广泛的应用前景。
📄 摘要(原文)
Recent approaches to jointly reconstruct 3D humans and objects from a single RGB image represent 3D shapes with template-based or coarse models, which fail to capture details of loose clothing on human bodies. In this paper, we introduce a novel implicit approach for jointly reconstructing realistic 3D clothed humans and objects from a monocular view. For the first time, we model both the human and the object with an implicit representation, allowing to capture more realistic details such as clothing. This task is extremely challenging due to human-object occlusions and the lack of 3D information in 2D images, often leading to poor detail reconstruction and depth ambiguity. To address these problems, we propose a novel attention-based neural implicit model that leverages image pixel alignment from both the input human-object image for a global understanding of the human-object scene and from local separate views of the human and object images to improve realism with, for example, clothing details. Additionally, the network is conditioned on semantic features derived from an estimated human-object pose prior, which provides 3D spatial information about the shared space of humans and objects. To handle human occlusion caused by objects, we use a generative diffusion model that inpaints the occluded regions, recovering otherwise lost details. For training and evaluation, we introduce a synthetic dataset featuring rendered scenes of inter-occluded 3D human scans and diverse objects. Extensive evaluation on both synthetic and real-world datasets demonstrates the superior quality of the proposed human-object reconstructions over competitive methods.