ExFMan: Rendering 3D Dynamic Humans with Hybrid Monocular Blurry Frames and Events

📄 arXiv: 2409.14103v1 📥 PDF

作者: Kanghao Chen, Zeyu Wang, Lin Wang

分类: cs.CV

发布日期: 2024-09-21


💡 一句话要点

ExFMan:利用混合单目模糊帧和事件相机数据渲染动态3D人体

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 动态人体重建 神经渲染 事件相机 运动模糊 多模态融合

📋 核心要点

  1. 现有单目视频重建动态人体方法在快速运动场景下易受运动模糊影响,导致重建质量下降。
  2. ExFMan利用事件相机提供的高时间分辨率信息,自适应地调整RGB帧和事件数据的损失权重,从而缓解运动模糊的影响。
  3. 实验结果表明,ExFMan在合成和真实数据集上均能重建出更清晰、更高质量的动态人体。

📝 摘要(中文)

近年来,随着神经渲染技术的进步,从单目视频中进行动态人体3D重建取得了显著进展。这项任务在虚拟现实(VR)环境中创建虚拟角色等领域具有广泛的应用。然而,当单目视频受到运动模糊的影响时,特别是由于快速的人体运动(例如,跑步、跳舞)引起的运动模糊,重建清晰的人体仍然具有挑战性。这导致渲染的3D人体在形状和外观上存在明显的不一致性,尤其是在快速运动的模糊区域,例如手和腿。本文提出了ExFMan,这是第一个神经渲染框架,它揭示了使用混合的基于帧的RGB和受生物启发的事件相机渲染快速运动中的高质量人体的可能性。其核心思想是以互补的方式利用事件数据的高时间信息,并根据渲染的人体速度自适应地重新加权RGB帧和事件的损失在局部区域的影响。这显著减轻了与RGB帧中的运动模糊相关的不一致性。具体来说,我们首先在规范空间中制定3D身体的速度场,并将其渲染到图像空间以识别具有运动模糊的身体部位。然后,我们提出了两种新的损失,即速度感知光度损失和速度相对事件损失,以在估计速度的指导下优化神经人体以适应两种模态。此外,我们还结合了新的姿势正则化和alpha损失,以促进连续的姿势和清晰的边界。在合成和真实世界数据集上的大量实验表明,ExFMan可以重建更清晰和更高质量的人体。

🔬 方法详解

问题定义:论文旨在解决单目视频中快速运动导致的运动模糊对动态人体3D重建质量的影响。现有方法在处理此类情况时,容易出现形状和外观的不一致性,尤其是在运动剧烈的身体部位,如手和腿。

核心思路:核心思路是结合传统RGB相机和事件相机的数据。RGB相机提供纹理信息,但易受运动模糊影响;事件相机则提供高时间分辨率的运动信息,对运动模糊不敏感。通过融合两种模态的信息,可以互补彼此的缺点,从而提高重建质量。此外,根据渲染人体的速度自适应地调整RGB帧和事件数据的损失权重,进一步优化重建效果。

技术框架:ExFMan框架主要包含以下几个模块:1) 3D人体模型表示:使用神经隐式表示或参数化模型(如SMPL)来表示3D人体。2) 速度场估计:在规范空间中估计3D人体的速度场,并将其渲染到图像空间,以识别具有运动模糊的身体部位。3) 损失函数设计:设计速度感知光度损失和速度相对事件损失,用于优化神经人体模型。4) 姿势正则化和alpha损失:用于约束姿势的连续性,并获得清晰的边界。

关键创新:该论文的关键创新在于:1) 提出了一种混合使用RGB帧和事件数据的神经渲染框架,用于动态人体3D重建。2) 设计了速度感知光度损失和速度相对事件损失,能够根据运动速度自适应地调整两种模态数据的权重。3) 引入了姿势正则化和alpha损失,进一步提高了重建质量。与现有方法相比,ExFMan能够更好地处理运动模糊,重建出更清晰、更高质量的动态人体。

关键设计:1) 速度场估计:使用光流或事件数据来估计速度场。2) 速度感知光度损失:根据速度场调整RGB帧的光度损失权重,降低模糊区域的权重。3) 速度相对事件损失:根据速度场调整事件数据的损失权重,提高运动剧烈区域的权重。4) 姿势正则化:使用L1或L2范数约束姿势参数的变化。5) Alpha损失:使用交叉熵损失或Dice损失来优化alpha通道,获得清晰的边界。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ExFMan在合成和真实数据集上进行了大量实验,结果表明其能够显著提高动态人体3D重建的质量。与现有方法相比,ExFMan能够重建出更清晰、更高质量的人体,尤其是在运动模糊严重的区域。具体性能提升数据在论文中有详细展示,包括PSNR、SSIM等指标的提升。

🎯 应用场景

ExFMan在虚拟现实(VR)、增强现实(AR)、游戏、电影制作等领域具有广泛的应用前景。它可以用于创建更逼真、更自然的虚拟角色,提升用户在虚拟环境中的沉浸感。此外,该技术还可以应用于运动分析、动作捕捉等领域,为体育训练、康复治疗等提供技术支持。未来,ExFMan有望成为构建数字孪生人体的重要组成部分。

📄 摘要(原文)

Recent years have witnessed tremendous progress in the 3D reconstruction of dynamic humans from a monocular video with the advent of neural rendering techniques. This task has a wide range of applications, including the creation of virtual characters for virtual reality (VR) environments. However, it is still challenging to reconstruct clear humans when the monocular video is affected by motion blur, particularly caused by rapid human motion (e.g., running, dancing), as often occurs in the wild. This leads to distinct inconsistency of shape and appearance for the rendered 3D humans, especially in the blurry regions with rapid motion, e.g., hands and legs. In this paper, we propose ExFMan, the first neural rendering framework that unveils the possibility of rendering high-quality humans in rapid motion with a hybrid frame-based RGB and bio-inspired event camera. The ``out-of-the-box'' insight is to leverage the high temporal information of event data in a complementary manner and adaptively reweight the effect of losses for both RGB frames and events in the local regions, according to the velocity of the rendered human. This significantly mitigates the inconsistency associated with motion blur in the RGB frames. Specifically, we first formulate a velocity field of the 3D body in the canonical space and render it to image space to identify the body parts with motion blur. We then propose two novel losses, i.e., velocity-aware photometric loss and velocity-relative event loss, to optimize the neural human for both modalities under the guidance of the estimated velocity. In addition, we incorporate novel pose regularization and alpha losses to facilitate continuous pose and clear boundary. Extensive experiments on synthetic and real-world datasets demonstrate that ExFMan can reconstruct sharper and higher quality humans.