DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
作者: Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
分类: cs.CV
发布日期: 2025-03-19
备注: Page:https://freedomgu.github.io/DiffPortrait360 Code:https://github.com/FreedomGu/DiffPortrait360/
💡 一句话要点
DiffPortrait360:提出一致性人像扩散模型,用于360度视角合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 360度视图合成 人像生成 扩散模型 神经辐射场 视角一致性 ControlNet 双重外观模块
📋 核心要点
- 现有头部生成方法难以兼顾真实感和视角一致性,限制了360度人像合成的应用。
- DiffPortrait360通过定制ControlNet生成后脑细节,并引入双重外观模块保证前后一致性。
- 实验表明,该方法在360度头部生成和NeRF渲染方面优于现有技术,尤其在处理复杂人像时。
📝 摘要(中文)
本文提出了一种新方法,用于从单视角图像生成高质量的360度人头视图,适用于实现可访问的沉浸式远程呈现应用和可扩展的个性化内容创建。现有头部生成方法在建模逼真头部方面存在局限,而最新的基于扩散的头部合成方法虽然风格多样,但仅限于正面视图,且视角一致性较差,难以转换为可从任意角度渲染的真3D模型。本文方法建立在DiffPortrait3D框架之上,引入了用于生成后脑勺细节的自定义ControlNet和用于确保全局前后一致性的双重外观模块。通过在连续视图序列上训练并集成后参考图像,实现了鲁棒且局部连续的视图合成。该模型可用于生成高质量神经辐射场(NeRF),以进行实时自由视点渲染,在对象合成和360度头部生成方面优于最先进的方法。
🔬 方法详解
问题定义:现有方法在从单张人像图片生成360度头部视图时,面临真实感和视角一致性的挑战。特别是,基于扩散模型的方法虽然能生成风格化的人像,但通常只关注正面视图,难以保证不同视角下的一致性,从而无法生成高质量的3D模型用于自由视点渲染。
核心思路:DiffPortrait360的核心在于通过引入后脑勺细节生成模块和全局前后一致性约束,来解决360度视图合成中的视角一致性问题。该方法利用扩散模型强大的生成能力,同时通过额外的控制信号和约束条件,确保生成的人像在不同视角下保持一致。
技术框架:DiffPortrait360基于DiffPortrait3D框架,主要包含以下模块:1) 图像编码器:用于提取输入人像的特征;2) 扩散模型:用于生成360度头部视图;3) ControlNet:用于控制后脑勺细节的生成;4) 双重外观模块:用于保证全局前后一致性。训练过程中,模型在连续视图序列上进行训练,并使用后参考图像作为额外的输入。
关键创新:该方法最重要的创新点在于:1) 引入了自定义的ControlNet,专门用于生成后脑勺的细节,从而提升了整体的真实感;2) 提出了双重外观模块,通过约束前后视图的特征一致性,保证了全局的视角一致性。
关键设计:ControlNet的具体实现未知,但推测是基于条件扩散模型,以输入图像的特征和后参考图像作为条件,生成后脑勺的细节。双重外观模块可能通过计算前后视图特征的相似度,并将其作为损失函数的一部分,来约束模型的训练。损失函数可能还包括图像重建损失、对抗损失等,以保证生成图像的质量和真实感。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DiffPortrait360在360度头部生成和NeRF渲染方面显著优于现有方法。尤其是在处理具有复杂发型或配饰的人像时,该方法能够生成更加真实和一致的3D模型。具体性能数据未知,但论文强调了其在主观视觉质量和客观指标上均取得了提升。
🎯 应用场景
DiffPortrait360技术可广泛应用于沉浸式远程呈现、个性化虚拟形象创建、游戏角色生成、以及电影特效制作等领域。该技术能够从单张照片生成高质量的360度人像模型,极大地降低了3D内容创作的门槛,并为用户提供更加逼真和个性化的虚拟体验。
📄 摘要(原文)
Generating high-quality 360-degree views of human heads from single-view images is essential for enabling accessible immersive telepresence applications and scalable personalized content creation. While cutting-edge methods for full head generation are limited to modeling realistic human heads, the latest diffusion-based approaches for style-omniscient head synthesis can produce only frontal views and struggle with view consistency, preventing their conversion into true 3D models for rendering from arbitrary angles. We introduce a novel approach that generates fully consistent 360-degree head views, accommodating human, stylized, and anthropomorphic forms, including accessories like glasses and hats. Our method builds on the DiffPortrait3D framework, incorporating a custom ControlNet for back-of-head detail generation and a dual appearance module to ensure global front-back consistency. By training on continuous view sequences and integrating a back reference image, our approach achieves robust, locally continuous view synthesis. Our model can be used to produce high-quality neural radiance fields (NeRFs) for real-time, free-viewpoint rendering, outperforming state-of-the-art methods in object synthesis and 360-degree head generation for very challenging input portraits.