CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-Consistency from a Single Image

📄 arXiv: 2503.15671v2 📥 PDF

作者: Arindam Dutta, Meng Zheng, Zhongpai Gao, Benjamin Planche, Anwesha Choudhuri, Terrence Chen, Amit K. Roy-Chowdhury, Ziyan Wu

分类: cs.CV

发布日期: 2025-03-19 (更新: 2025-10-17)

备注: Accepted at ICCV 2025


💡 一句话要点

CHROME:单图遮挡下多视角一致的服装人体重建

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 服装人体重建 单目重建 遮挡处理 多视角一致性 扩散模型 3D高斯 新视角合成

📋 核心要点

  1. 现有单目服装人体重建方法在遮挡场景下表现不佳,且依赖难以获取的几何先验。
  2. CHROME利用多视角扩散模型合成无遮挡图像,并训练3D重建模型预测3D高斯分布,实现抗遮挡和多视角一致性。
  3. 实验表明,CHROME在遮挡场景下显著提升了新视角合成和几何重建的性能。

📝 摘要(中文)

本文提出CHROME,一种新颖的单图像服装人体重建流程,旨在从单张遮挡图像中重建具有多视角一致性的、抗遮挡的3D人体。现有单目服装人体重建方法通常假设人体处于无遮挡环境中,导致在真实场景的遮挡图像上产生多视角不一致和碎片化的重建结果。此外,大多数算法依赖于难以获取的SMPL等几何先验。CHROME利用多视角扩散模型从遮挡输入合成无遮挡的人体图像,并通过姿态控制显式地强制跨视角一致性。然后,训练一个3D重建模型,以遮挡输入和合成视图为条件预测一组3D高斯分布,对齐跨视角细节,从而产生连贯而准确的3D表示。CHROME在具有挑战性的条件下,显著提高了新视角合成(高达3dB PSNR)和几何重建的性能。

🔬 方法详解

问题定义:现有单目服装人体重建方法在处理真实场景中常见的遮挡问题时,重建结果往往多视角不一致且较为破碎。此外,这些方法通常依赖于SMPL等几何先验,而这些先验在实际应用中难以获取,限制了算法的泛化能力。因此,如何从单张遮挡图像中重建出具有多视角一致性的、高质量的3D服装人体模型是一个重要的挑战。

核心思路:CHROME的核心思路是利用多视角扩散模型来“补全”被遮挡的区域,生成多视角一致的无遮挡人体图像,然后利用这些图像来指导3D重建。通过这种方式,算法可以克服遮挡带来的困难,并避免对几何先验的依赖。

技术框架:CHROME的整体框架包含两个主要阶段:1) 多视角图像合成阶段:利用多视角扩散模型,以单张遮挡图像为输入,生成多个视角下的无遮挡人体图像。该阶段通过姿态控制来显式地保证跨视角的一致性。2) 3D重建阶段:训练一个3D重建模型,以遮挡输入和合成的多个视角图像为条件,预测一组3D高斯分布。该模型通过对齐跨视角细节,生成连贯且准确的3D人体表示。

关键创新:CHROME的关键创新在于其利用多视角扩散模型进行图像合成,从而在遮挡场景下实现多视角一致的3D人体重建。与现有方法相比,CHROME不需要几何先验,并且能够更好地处理遮挡问题。此外,利用3D高斯表示进行重建,可以更灵活地表示复杂的几何结构。

关键设计:在多视角图像合成阶段,CHROME使用了一个条件扩散模型,该模型以遮挡图像和目标视角为输入,生成对应视角的无遮挡图像。为了保证跨视角一致性,算法在训练过程中使用了姿态控制。在3D重建阶段,CHROME训练了一个神经网络,该网络以遮挡图像和合成的多个视角图像为输入,预测一组3D高斯分布。损失函数包括重建损失和跨视角一致性损失,以保证重建结果的准确性和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CHROME在遮挡场景下的新视角合成和几何重建方面取得了显著的提升。实验结果表明,CHROME在新视角合成方面,相比现有方法,PSNR指标提升高达3dB。此外,CHROME在几何重建方面也取得了显著的改进,能够生成更准确、更完整的3D人体模型。

🎯 应用场景

CHROME具有广泛的应用前景,例如虚拟试衣、游戏角色定制、虚拟现实/增强现实内容创作、以及智能监控等领域。该技术可以帮助用户在虚拟环境中体验服装效果,创建个性化的虚拟角色,并为智能监控系统提供更准确的人体姿态估计和行为分析。

📄 摘要(原文)

Reconstructing clothed humans from a single image is a fundamental task in computer vision with wide-ranging applications. Although existing monocular clothed human reconstruction solutions have shown promising results, they often rely on the assumption that the human subject is in an occlusion-free environment. Thus, when encountering in-the-wild occluded images, these algorithms produce multiview inconsistent and fragmented reconstructions. Additionally, most algorithms for monocular 3D human reconstruction leverage geometric priors such as SMPL annotations for training and inference, which are extremely challenging to acquire in real-world applications. To address these limitations, we propose CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-ConsistEncy from a Single Image, a novel pipeline designed to reconstruct occlusion-resilient 3D humans with multiview consistency from a single occluded image, without requiring either ground-truth geometric prior annotations or 3D supervision. Specifically, CHROME leverages a multiview diffusion model to first synthesize occlusion-free human images from the occluded input, compatible with off-the-shelf pose control to explicitly enforce cross-view consistency during synthesis. A 3D reconstruction model is then trained to predict a set of 3D Gaussians conditioned on both the occluded input and synthesized views, aligning cross-view details to produce a cohesive and accurate 3D representation. CHROME achieves significant improvements in terms of both novel view synthesis (upto 3 db PSNR) and geometric reconstruction under challenging conditions.