TriHuman : A Real-time and Controllable Tri-plane Representation for Detailed Human Geometry and Appearance Synthesis
作者: Heming Zhu, Fangneng Zhan, Christian Theobalt, Marc Habermann
分类: cs.CV
发布日期: 2023-12-08
💡 一句话要点
提出TriHuman,一种实时可控的三平面人体几何与外观合成方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三平面表示 神经辐射场 人体建模 姿态控制 实时渲染
📋 核心要点
- 现有方法通常使用MLP参数化神经场,导致运行速度慢,难以满足实时性要求。
- TriHuman通过将全局光线采样扭曲到未变形的三平面纹理空间,并结合骨骼运动信息,实现高效的姿态控制。
- 实验结果表明,TriHuman在几何和外观建模质量以及运行时性能方面均优于现有技术。
📝 摘要(中文)
本文提出TriHuman,一种新颖的、专为人体重建设计的、可变形且高效的三平面表示方法,旨在解决从视频数据实时创建可控、照片级真实感、几何细节丰富的数字替身这一关键挑战。该方法在保证实时性能的同时,实现了最先进的姿态可控几何合成以及照片级渲染质量。TriHuman的核心思想是将全局光线采样非刚性地扭曲到未变形的三平面纹理空间中,有效解决了全局点被映射到相同三平面位置的问题。此外,该三平面特征表示可以根据骨骼运动进行调整,从而解释动态的外观和几何变化。实验结果表明,TriHuman在人体几何和外观建模以及运行时性能方面都取得了显著提升。
🔬 方法详解
问题定义:论文旨在解决从视频数据实时创建可控、照片级真实感、几何细节丰富的人体数字替身的问题。现有方法,特别是基于神经辐射场(NeRF)的方法,虽然在静态场景重建上表现出色,但在处理可动的人体时,通常需要依赖多层感知机(MLP)来参数化神经场,这导致计算量大,运行速度慢,难以满足实时性要求。此外,如何有效地将全局信息整合到局部特征中,并根据人体姿态进行调整,也是一个挑战。
核心思路:TriHuman的核心思路是利用三平面表示来加速神经辐射场的渲染过程,并引入非刚性变形来处理人体姿态变化。通过将全局光线采样扭曲到未变形的三平面纹理空间,可以有效地将全局信息编码到局部特征中,并避免全局点映射到相同三平面位置的问题。同时,通过将三平面特征表示与骨骼运动信息相结合,可以实现姿态可控的几何和外观合成。
技术框架:TriHuman的整体框架包括以下几个主要模块:1) 光线采样模块:从输入视频中采样光线。2) 非刚性变形模块:将全局光线采样非刚性地扭曲到未变形的三平面纹理空间。3) 三平面特征提取模块:从扭曲后的光线采样位置提取三平面特征。4) 姿态条件模块:根据骨骼运动信息调整三平面特征表示。5) 渲染模块:利用调整后的三平面特征进行体渲染,生成最终的图像。
关键创新:TriHuman的关键创新在于:1) 提出了一种新颖的、专为人体重建设计的三平面表示方法,可以有效地加速神经辐射场的渲染过程。2) 引入了非刚性变形,可以将全局光线采样扭曲到未变形的三平面纹理空间,从而有效地处理人体姿态变化。3) 将三平面特征表示与骨骼运动信息相结合,实现了姿态可控的几何和外观合成。
关键设计:TriHuman的关键设计包括:1) 使用三个正交的平面来表示场景几何和外观信息,每个平面都包含一个特征纹理。2) 使用一个可学习的非刚性变形场,将全局光线采样扭曲到未变形的三平面纹理空间。3) 使用一个小的MLP网络,将三平面特征和姿态信息映射到密度和颜色值。
📊 实验亮点
TriHuman在人体几何和外观建模方面取得了显著的提升。实验结果表明,TriHuman在几何精度和渲染质量方面均优于现有方法。此外,TriHuman还实现了实时性能,可以在GPU上以30帧/秒的速度运行。与基于MLP的NeRF方法相比,TriHuman的运行速度提高了数倍。
🎯 应用场景
TriHuman具有广泛的应用前景,包括虚拟现实、增强现实、游戏、电影制作等领域。它可以用于创建逼真的虚拟化身,实现实时的人体姿态捕捉和动画,以及生成高质量的数字内容。此外,该技术还可以应用于远程会议、在线教育等场景,提供更具沉浸感和交互性的用户体验。未来,TriHuman有望成为构建数字世界的重要基石。
📄 摘要(原文)
Creating controllable, photorealistic, and geometrically detailed digital doubles of real humans solely from video data is a key challenge in Computer Graphics and Vision, especially when real-time performance is required. Recent methods attach a neural radiance field (NeRF) to an articulated structure, e.g., a body model or a skeleton, to map points into a pose canonical space while conditioning the NeRF on the skeletal pose. These approaches typically parameterize the neural field with a multi-layer perceptron (MLP) leading to a slow runtime. To address this drawback, we propose TriHuman a novel human-tailored, deformable, and efficient tri-plane representation, which achieves real-time performance, state-of-the-art pose-controllable geometry synthesis as well as photorealistic rendering quality. At the core, we non-rigidly warp global ray samples into our undeformed tri-plane texture space, which effectively addresses the problem of global points being mapped to the same tri-plane locations. We then show how such a tri-plane feature representation can be conditioned on the skeletal motion to account for dynamic appearance and geometry changes. Our results demonstrate a clear step towards higher quality in terms of geometry and appearance modeling of humans as well as runtime performance.