Real-Time Human Frontal View Synthesis from a Single Image
作者: Fangyu Lin, Yingdong Hu, Lunjie Zhu, Zhening Liu, Yushi Huang, Zehong Lin, Jun Zhang
分类: cs.CV
发布日期: 2026-03-16
💡 一句话要点
PrismMirror:提出一种几何引导的单目图像实时人脸正视图合成框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人脸正视图合成 单目图像 实时渲染 几何引导 级联学习 线性注意力 模型蒸馏
📋 核心要点
- 现有方法在单目人脸正视图合成中,难以兼顾视觉逼真度和几何结构准确性,且实时性不足。
- PrismMirror通过几何引导和级联学习策略,避免外部几何建模,直接从单张图像合成高质量正视图。
- 该模型实现了24 FPS的实时推理,并在视觉真实性和结构精度上超越了现有方法。
📝 摘要(中文)
本文提出PrismMirror,一个几何引导的框架,用于从单张图像中即时合成人脸正视图。从单张图像中进行逼真的人体新视角合成对于普及沉浸式3D远程呈现至关重要,它消除了对复杂的多摄像头设置的需求。然而,当前的以渲染为中心的方法优先考虑视觉逼真度,而忽略了显式的几何理解,并且难以处理像面部和手部这样复杂的区域,从而导致时间上的不稳定性。同时,以人为中心的框架受到内存瓶颈的限制,因为它们通常依赖于辅助模型来为几何建模提供信息丰富的结构先验,这限制了实时性能。为了解决这些挑战,PrismMirror避免了外部几何建模,专注于正视图合成,从而优化了远程呈现的视觉完整性。具体来说,PrismMirror引入了一种新颖的级联学习策略,可以实现从粗到细的几何特征学习。它首先直接学习粗略的几何特征,例如SMPL-X网格和点云,然后通过渲染监督来细化纹理。为了实现实时效率,我们将这个统一的框架提炼成一个轻量级的线性注意力模型。值得注意的是,PrismMirror是第一个实现24 FPS实时推理的单目人脸正视图合成模型,在视觉真实性和结构精度方面均显着优于以前的方法。
🔬 方法详解
问题定义:论文旨在解决从单张图像实时合成逼真人脸正视图的问题。现有方法要么侧重于渲染质量而忽略了几何结构,导致时间不稳定;要么依赖于辅助几何模型,造成内存瓶颈,无法满足实时性要求。因此,如何在保证视觉质量的同时,实现快速且准确的人脸正视图合成是一个挑战。
核心思路:PrismMirror的核心思路是采用几何引导的级联学习策略,避免使用外部几何模型,直接从单张图像中学习几何特征。通过先学习粗略的几何特征(如SMPL-X网格和点云),再通过渲染监督细化纹理,从而实现高质量的正视图合成。同时,通过模型蒸馏,将复杂模型转化为轻量级线性注意力模型,以提高推理速度。
技术框架:PrismMirror的整体框架包含两个主要阶段:粗略几何特征学习和纹理细化。首先,模型直接从输入图像中学习粗略的几何特征,例如SMPL-X网格和点云。然后,利用这些几何特征作为先验,通过渲染监督来细化纹理,生成最终的正视图。为了实现实时性,整个框架被蒸馏成一个轻量级的线性注意力模型。
关键创新:PrismMirror的关键创新在于其几何引导的级联学习策略和轻量级线性注意力模型。级联学习策略允许模型从粗到细地学习几何特征,避免了对外部几何模型的依赖。轻量级线性注意力模型则显著提高了推理速度,使其能够实现实时性能。
关键设计:PrismMirror的关键设计包括:1) 级联学习的损失函数,用于监督粗略几何特征的学习和纹理细化;2) 轻量级线性注意力模型的网络结构,旨在减少计算量和内存占用;3) 模型蒸馏策略,将复杂模型转化为轻量级模型,同时保持性能。
🖼️ 关键图片
📊 实验亮点
PrismMirror实现了24 FPS的实时人脸正视图合成,显著优于现有方法。在视觉真实性和结构精度方面,PrismMirror也取得了显著提升。实验结果表明,PrismMirror在主观视觉质量和客观评价指标上均优于其他单目人脸正视图合成方法。
🎯 应用场景
PrismMirror在3D远程呈现、虚拟会议、游戏和虚拟现实等领域具有广泛的应用前景。它能够使用户仅通过单摄像头即可实现逼真的3D人脸重建和视角变换,从而提升用户体验,降低设备成本,并促进相关技术的普及。未来,该技术有望应用于更广泛的人机交互场景。
📄 摘要(原文)
Photorealistic human novel view synthesis from a single image is crucial for democratizing immersive 3D telepresence, eliminating the need for complex multi-camera setups. However, current rendering-centric methods prioritize visual fidelity over explicit geometric understanding and struggle with intricate regions like faces and hands, leading to temporal instability. Meanwhile, human-centric frameworks suffer from memory bottlenecks since they typically rely on an auxiliary model to provide informative structural priors for geometric modeling, which limits real-time performance. To address these challenges, we propose PrismMirror, a geometry-guided framework for instant frontal view synthesis from a single image. By avoiding external geometric modeling and focusing on frontal view synthesis, our model optimizes visual integrity for telepresence. Specifically, PrismMirror introduces a novel cascade learning strategy that enables coarse-to-fine geometric feature learning. It first directly learns coarse geometric features, such as SMPL-X meshes and point clouds, and then refines textures through rendering supervision. To achieve real-time efficiency, we distill this unified framework into a lightweight linear attention model. Notably, PrismMirror is the first monocular human frontal view synthesis model that achieves real-time inference at 24 FPS, significantly outperforming previous methods in both visual authenticity and structural accuracy.