HyPlaneHead: Rethinking Tri-plane-like Representations in Full-Head Image Synthesis
作者: Heyuan Li, Kenkun Liu, Lingteng Qiu, Qi Zuo, Keru Zheng, Zilong Dong, Xiaoguang Han
分类: cs.CV
发布日期: 2025-09-20
备注: Accepted by NeurIPS 2025
💡 一句话要点
提出HyPlaneHead,通过混合平面表示实现高质量全头部图像合成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 头部图像合成 3D感知GAN 混合平面表示 特征纠缠 特征渗透
📋 核心要点
- 现有基于三平面的头部图像合成方法存在特征纠缠、特征图利用率不均以及特征渗透等问题,限制了生成图像的质量。
- 论文提出混合平面(hy-plane)表示,结合平面和球面表示的优势,并采用近等面积扭曲策略和单通道特征图生成,以解决上述问题。
- 实验结果表明,HyPlaneHead在全头部图像合成任务中取得了state-of-the-art的性能,显著提升了生成图像的质量。
📝 摘要(中文)
本文针对3D感知GAN中广泛使用的类三平面表示在头部图像合成任务中的问题进行了研究。现有方法如笛卡尔坐标投影导致特征纠缠,产生镜像伪影;球面三平面方法SphereHead虽然缓解了特征纠缠,但存在特征图利用率不均的问题。此外,三平面表示普遍存在跨通道的特征渗透问题,导致平面间干扰。本文系统性地分析了这些问题,并提出了创新性的解决方案。具体而言,本文提出了一种新型混合平面(hy-plane)表示,结合了平面和球面表示的优点,避免了各自的缺点。同时,通过近等面积的扭曲策略增强了球面平面,最大化了特征图的有效利用率。此外,生成器合成了单通道统一特征图,有效消除了特征渗透。通过一系列技术改进,HyPlaneHead在全头部图像合成任务中实现了最先进的性能。
🔬 方法详解
问题定义:现有基于三平面的方法在全头部图像合成中存在三个主要问题:一是笛卡尔坐标投影导致特征纠缠,产生镜像伪影;二是球面三平面方法SphereHead存在特征图利用率不均的问题;三是三平面表示普遍存在跨通道的特征渗透问题,导致平面间干扰。这些问题限制了生成图像的质量和细节。
核心思路:论文的核心思路是结合平面和球面表示的优势,提出一种混合平面(hy-plane)表示。平面表示擅长捕捉局部细节,而球面表示能够更好地处理全局结构。通过合理地结合两者,可以避免各自的缺点,并提高特征图的利用率。同时,采用单通道特征图生成,可以有效消除特征渗透。
技术框架:HyPlaneHead的整体框架包括一个生成器和一个判别器。生成器首先将潜在编码映射到混合平面表示(hy-plane),然后通过一个渲染模块将hy-plane转换为RGB图像。判别器用于区分生成的图像和真实图像。hy-plane由平面和球面两部分组成,平面部分使用传统的笛卡尔坐标系,球面部分使用改进的球面坐标系。
关键创新:最重要的技术创新点是混合平面表示(hy-plane)和近等面积扭曲策略。hy-plane结合了平面和球面表示的优点,能够更好地捕捉图像的局部细节和全局结构。近等面积扭曲策略最大化了球面特征图的利用率,避免了特征图利用率不均的问题。此外,单通道特征图生成也有效消除了特征渗透。
关键设计:球面平面的扭曲函数是关键设计之一,论文提出了近等面积的扭曲策略,使得球面特征图上的每个像素对应于球面上的近似相等面积的区域。损失函数包括对抗损失、感知损失和正则化损失。网络结构采用了类似StyleGAN2的架构,并针对hy-plane进行了修改。
🖼️ 关键图片
📊 实验亮点
HyPlaneHead在全头部图像合成任务中取得了state-of-the-art的性能。与现有方法相比,HyPlaneHead能够生成更高质量、更逼真的头部图像,细节更加丰富,伪影更少。实验结果表明,HyPlaneHead在FID等指标上显著优于其他方法,证明了其有效性。
🎯 应用场景
HyPlaneHead在虚拟现实、增强现实、游戏开发、数字人生成等领域具有广泛的应用前景。它可以用于生成高质量的虚拟化身,创建逼真的游戏角色,以及进行人脸编辑和动画制作。该研究的成果有助于提升相关应用的用户体验和视觉效果。
📄 摘要(原文)
Tri-plane-like representations have been widely adopted in 3D-aware GANs for head image synthesis and other 3D object/scene modeling tasks due to their efficiency. However, querying features via Cartesian coordinate projection often leads to feature entanglement, which results in mirroring artifacts. A recent work, SphereHead, attempted to address this issue by introducing spherical tri-planes based on a spherical coordinate system. While it successfully mitigates feature entanglement, SphereHead suffers from uneven mapping between the square feature maps and the spherical planes, leading to inefficient feature map utilization during rendering and difficulties in generating fine image details. Moreover, both tri-plane and spherical tri-plane representations share a subtle yet persistent issue: feature penetration across convolutional channels can cause interference between planes, particularly when one plane dominates the others. These challenges collectively prevent tri-plane-based methods from reaching their full potential. In this paper, we systematically analyze these problems for the first time and propose innovative solutions to address them. Specifically, we introduce a novel hybrid-plane (hy-plane for short) representation that combines the strengths of both planar and spherical planes while avoiding their respective drawbacks. We further enhance the spherical plane by replacing the conventional theta-phi warping with a novel near-equal-area warping strategy, which maximizes the effective utilization of the square feature map. In addition, our generator synthesizes a single-channel unified feature map instead of multiple feature maps in separate channels, thereby effectively eliminating feature penetration. With a series of technical improvements, our hy-plane representation enables our method, HyPlaneHead, to achieve state-of-the-art performance in full-head image synthesis.