IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos
作者: Yuan Li, Ziqian Bai, Feitong Tan, Zhaopeng Cui, Sean Fanello, Yinda Zhang
分类: cs.CV
发布日期: 2025-04-27 (更新: 2025-04-29)
备注: CVPR2025; project page: https://y-u-a-n-l-i.github.io/projects/IM-Portrait/
💡 一句话要点
提出IM-Portrait,一种基于单目视频的3D感知视频扩散方法,用于生成逼真的说话人头部视频。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 说话人头部生成 3D感知扩散模型 多平面图像 单目视频 新视角渲染 虚拟化身 几何一致性
📋 核心要点
- 现有说话人头部视频生成方法通常需要单独的3D重建阶段或联合优化,计算成本高,效率较低。
- IM-Portrait通过3D感知的扩散模型直接生成多平面图像(MPI),避免了复杂的3D重建过程,提高了生成效率。
- 该方法在单目视频上训练,通过在目标和参考相机空间随机重建MPI,实现了高质量的头像生成和新视角渲染。
📝 摘要(中文)
本文提出了一种新颖的基于3D感知的扩散方法,用于直接从单个身份图像和显式控制信号(例如,表情)生成逼真的说话人头部视频。我们的方法生成多平面图像(MPI),确保了几何一致性,使其非常适合沉浸式观看体验,如用于VR耳机的双目视频。与现有方法通常需要单独的阶段或联合优化来重建3D表示(如NeRF或3D高斯)不同,我们的方法通过单个去噪过程直接生成最终输出,无需后处理步骤即可高效地渲染新视角。为了有效地从单目视频中学习,我们引入了一种训练机制,该机制在目标或参考相机空间中随机重建输出MPI。这种方法使模型能够同时学习清晰的图像细节和潜在的3D信息。大量实验证明了我们方法的有效性,即使没有显式的3D重建或高质量的多视角训练数据,也能实现具有竞争力的头像质量和新视角渲染能力。
🔬 方法详解
问题定义:现有说话人头部视频生成方法通常依赖于显式的3D重建,例如NeRF或3D高斯,这需要额外的优化步骤或高质量的多视角数据。这些方法计算成本高昂,并且可能引入额外的误差。因此,如何从单目视频中高效地生成高质量、几何一致的说话人头部视频是一个挑战。
核心思路:IM-Portrait的核心思路是利用3D感知的扩散模型直接生成多平面图像(MPI)。MPI是一种显式的3D表示,能够保证几何一致性,并且易于渲染。通过在扩散过程中引入3D感知,模型可以直接生成具有正确几何结构的图像,避免了显式的3D重建过程。
技术框架:IM-Portrait的整体框架是一个基于扩散模型的生成流程。该流程以单个身份图像和控制信号(例如,表情)作为输入,通过一个去噪过程逐步生成MPI。为了从单目视频中学习,该模型采用了一种特殊的训练机制,即在目标或参考相机空间中随机重建输出MPI。这使得模型能够同时学习清晰的图像细节和潜在的3D信息。
关键创新:IM-Portrait的关键创新在于它将3D感知融入到扩散模型中,从而可以直接生成MPI。与现有方法相比,该方法无需显式的3D重建或后处理步骤,大大提高了生成效率。此外,该方法还提出了一种新的训练机制,可以在单目视频上有效地学习3D信息。
关键设计:该模型使用U-Net作为其核心架构,并对其进行了修改以适应MPI的生成。损失函数包括L1损失和感知损失,用于保证图像的质量和真实感。在训练过程中,模型随机选择目标或参考相机空间进行重建,并使用数据增强技术来提高模型的鲁棒性。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IM-Portrait在头像质量和新视角渲染能力方面都达到了具有竞争力的水平,即使没有显式的3D重建或高质量的多视角训练数据。与现有方法相比,IM-Portrait在生成速度和几何一致性方面具有显著优势。定性结果展示了生成的说话人头部视频的逼真度和细节。
🎯 应用场景
IM-Portrait具有广泛的应用前景,包括虚拟现实/增强现实(VR/AR)、视频会议、游戏和数字内容创作等领域。它可以用于创建逼真的虚拟化身,用于沉浸式体验和个性化通信。此外,该技术还可以用于生成各种特效和动画,为数字内容创作提供新的可能性。
📄 摘要(原文)
We propose a novel 3D-aware diffusion-based method for generating photorealistic talking head videos directly from a single identity image and explicit control signals (e.g., expressions). Our method generates Multiplane Images (MPIs) that ensure geometric consistency, making them ideal for immersive viewing experiences like binocular videos for VR headsets. Unlike existing methods that often require a separate stage or joint optimization to reconstruct a 3D representation (such as NeRF or 3D Gaussians), our approach directly generates the final output through a single denoising process, eliminating the need for post-processing steps to render novel views efficiently. To effectively learn from monocular videos, we introduce a training mechanism that reconstructs the output MPI randomly in either the target or the reference camera space. This approach enables the model to simultaneously learn sharp image details and underlying 3D information. Extensive experiments demonstrate the effectiveness of our method, which achieves competitive avatar quality and novel-view rendering capabilities, even without explicit 3D reconstruction or high-quality multi-view training data.