OccFusion: Rendering Occluded Humans with Generative Diffusion Priors
作者: Adam Sun, Tiange Xiang, Scott Delp, Li Fei-Fei, Ehsan Adeli
分类: cs.CV
发布日期: 2024-06-29
💡 一句话要点
OccFusion:利用生成扩散先验渲染遮挡场景中的人体
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人体渲染 遮挡处理 3D高斯溅射 扩散模型 Score Distillation Sampling
📋 核心要点
- 现有方法难以处理人体被遮挡的情况,导致渲染质量下降,真实场景应用受限。
- OccFusion利用3D高斯溅射和预训练扩散模型,通过score distillation sampling优化人体几何结构。
- 实验表明,OccFusion在遮挡人体渲染任务上取得了state-of-the-art的性能,提升了渲染质量。
📝 摘要(中文)
现有的人体渲染方法通常要求输入视频中人体的每个部分都完全可见。然而,在现实场景中,遮挡现象普遍存在,导致人体只有部分可见。针对这一问题,我们提出了OccFusion,一种利用高效的3D高斯溅射,并由预训练的2D扩散模型监督,实现高效且高保真的人体渲染方法。我们的方法包含三个阶段:初始化阶段,从部分可见的mask生成完整的人体mask;优化阶段,通过Score-Distillation Sampling (SDS)的额外监督优化3D人体高斯模型,以创建完整的人体几何结构;细化阶段,设计上下文修复以进一步提高对较少观察到的人体部位的渲染质量。我们在ZJU-MoCap和具有挑战性的OcMotion序列上评估了OccFusion,结果表明它在遮挡人体渲染方面实现了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决人体渲染中,由于遮挡导致现有方法性能下降的问题。现有方法通常假设人体完全可见,但在实际场景中,遮挡是常态,这使得现有方法无法有效重建和渲染被遮挡的人体部分,导致渲染质量差,应用场景受限。
核心思路:论文的核心思路是利用预训练的2D扩散模型作为先验知识,指导3D高斯溅射的优化过程,从而在只有部分可见信息的情况下,推断出完整的人体几何结构和纹理。通过score distillation sampling,将2D扩散模型的知识迁移到3D高斯表示中,实现对遮挡区域的合理补全。
技术框架:OccFusion包含三个主要阶段:1) 初始化阶段:利用部分可见的人体mask,生成完整的人体mask,为后续的3D重建提供初始形状。2) 优化阶段:使用3D高斯溅射表示人体,并通过score distillation sampling (SDS)损失函数,利用预训练的2D扩散模型指导3D高斯的优化,使其能够生成符合人体结构的完整几何形状。3) 细化阶段:针对优化阶段可能存在的不足,设计上下文修复模块,进一步提升对遮挡区域的渲染质量。
关键创新:该方法最重要的创新点在于将预训练的2D扩散模型作为先验知识,引入到3D人体渲染中。通过score distillation sampling,有效地利用了2D扩散模型强大的生成能力,克服了遮挡带来的信息缺失问题。与传统的基于几何或纹理先验的方法相比,该方法能够生成更逼真、更符合人体结构的渲染结果。
关键设计:在优化阶段,使用了Score Distillation Sampling (SDS)损失函数,该损失函数通过最小化渲染图像的score与扩散模型预测的score之间的差异,来指导3D高斯的优化。具体来说,给定一个渲染图像,首先使用扩散模型预测其score,然后计算渲染图像的score与预测score之间的差异,并将该差异作为损失函数,反向传播到3D高斯参数中。此外,在细化阶段,使用了上下文修复模块,该模块利用周围可见区域的信息,对遮挡区域进行修复,进一步提升渲染质量。具体实现细节(如扩散模型的选择、SDS损失函数的具体形式、上下文修复模块的网络结构等)未知。
🖼️ 关键图片
📊 实验亮点
OccFusion在ZJU-MoCap和OcMotion数据集上进行了评估,实验结果表明,该方法在遮挡人体渲染任务上取得了state-of-the-art的性能。具体性能数据未知,但论文强调了在遮挡场景下的显著提升,证明了该方法在处理遮挡问题上的有效性。
🎯 应用场景
OccFusion在虚拟现实、增强现实、游戏开发等领域具有广泛的应用前景。它可以用于创建更加逼真和自然的虚拟人物,即使在存在遮挡的情况下也能保证渲染质量。此外,该方法还可以应用于人体姿态估计、动作捕捉等任务,提高这些任务在复杂场景下的鲁棒性。
📄 摘要(原文)
Most existing human rendering methods require every part of the human to be fully visible throughout the input video. However, this assumption does not hold in real-life settings where obstructions are common, resulting in only partial visibility of the human. Considering this, we present OccFusion, an approach that utilizes efficient 3D Gaussian splatting supervised by pretrained 2D diffusion models for efficient and high-fidelity human rendering. We propose a pipeline consisting of three stages. In the Initialization stage, complete human masks are generated from partial visibility masks. In the Optimization stage, 3D human Gaussians are optimized with additional supervision by Score-Distillation Sampling (SDS) to create a complete geometry of the human. Finally, in the Refinement stage, in-context inpainting is designed to further improve rendering quality on the less observed human body parts. We evaluate OccFusion on ZJU-MoCap and challenging OcMotion sequences and find that it achieves state-of-the-art performance in the rendering of occluded humans.