TOPOS: High-Fidelity and Efficient Industry-Grade 3D Head Generation
作者: Bojun Xiong, Zoubin Bi, Xinghui Peng, Yunmu Wang, Junchen Deng, Jun Liang, Jing Li, Bowen Cai, Huan Fu
分类: cs.CV, cs.GR
发布日期: 2026-05-14
备注: Technical Report
💡 一句话要点
TOPOS:高保真、高效的工业级3D头部生成框架,满足固定拓扑需求。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D头部生成 固定拓扑 变分自编码器 校正流Transformer 数字人 工业级应用 单图像重建
📋 核心要点
- 现有3D头部生成方法生成的网格拓扑不一致,顶点数量庞大,难以满足工业界对可控拓扑和语义对应关系的需求。
- TOPOS框架通过TOPOS-VAE将不同拓扑的头部网格转换为统一的参考拓扑,并利用TOPOS-DiT高效生成高保真头部网格。
- 实验表明,TOPOS在3D头部生成方面优于现有方法,尤其是在生成具有固定拓扑的高质量头部网格方面表现突出。
📝 摘要(中文)
本文提出TOPOS,一个为单图像条件下的3D头部生成定制的框架,它在工业标准拓扑下联合恢复几何形状和外观。与生成具有不一致拓扑和大量顶点的通用3D生成模型不同,TOPOS生成具有固定、工作室风格拓扑的头部网格,从而实现所有生成头部之间一致的顶点级对应关系。为了在这种统一拓扑下建模头部,我们提出了一种新颖的变分自编码器结构,称为TOPOS-VAE。受多模态大型语言模型(MLLM)的启发,我们的TOPOS-VAE利用Perceiver Resampler将从具有不同拓扑的头部网格中采样的输入点云转换为目标参考拓扑。在TOPOS-VAE的结构化潜在空间的基础上,我们训练了一个校正流Transformer,TOPOS-DiT,以从单个图像有效地生成高保真头部网格。我们进一步提出了TOPOS-Texture,一个端到端模块,通过微调多模态图像生成模型,从同一肖像图像生成可重新光照的UV纹理贴图。生成的纹理在空间上与底层网格几何体对齐,并忠实地保留高频外观细节。大量实验表明,TOPOS在3D头部生成方面取得了最先进的性能,超越了经典的脸部重建方法和通用3D对象生成模型,突出了其在数字人创建方面的有效性。
🔬 方法详解
问题定义:现有3D头部生成方法,如通用3D生成模型,通常生成具有不一致拓扑和大量顶点的三角形网格。这使得难以建立语义对应关系,阻碍了资产级别的重用,并且不符合电影、动画和游戏等行业对固定参考拓扑的需求,因为这些行业需要干净且统一的拓扑来进行绑定、蒙皮和动画制作。
核心思路:TOPOS的核心思路是将不同拓扑结构的头部网格统一到一个预定义的、工业标准的参考拓扑上。通过学习一个结构化的潜在空间,使得生成的头部网格具有一致的顶点级对应关系,从而方便后续的动画制作和资产重用。这种方法借鉴了多模态大型语言模型(MLLM)的思想,利用Perceiver Resampler将输入点云转换为目标参考拓扑。
技术框架:TOPOS框架主要包含三个模块:TOPOS-VAE、TOPOS-DiT和TOPOS-Texture。首先,TOPOS-VAE是一个变分自编码器,负责将输入的头部网格(具有不同的拓扑)编码到统一的潜在空间中,并解码生成具有目标参考拓扑的头部网格。其次,TOPOS-DiT是一个校正流Transformer,用于从单张图像高效地生成高保真头部网格,它基于TOPOS-VAE的结构化潜在空间进行训练。最后,TOPOS-Texture是一个端到端模块,用于从同一张肖像图像生成可重新光照的UV纹理贴图。
关键创新:TOPOS最重要的技术创新在于其能够生成具有固定、工作室风格拓扑的头部网格。与现有方法相比,TOPOS生成的头部网格具有一致的顶点级对应关系,这使得它更适合于工业生产流程。此外,TOPOS-VAE中Perceiver Resampler的使用,使得模型能够处理具有不同拓扑结构的输入,并将其转换为目标参考拓扑。
关键设计:TOPOS-VAE的关键设计在于Perceiver Resampler,它将从具有不同拓扑的头部网格中采样的输入点云转换为目标参考拓扑。TOPOS-DiT的关键设计在于使用校正流Transformer,这使得模型能够高效地生成高保真头部网格。TOPOS-Texture的关键设计在于通过微调多模态图像生成模型,从同一肖像图像生成可重新光照的UV纹理贴图。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TOPOS在3D头部生成方面取得了最先进的性能,超越了经典的脸部重建方法和通用3D对象生成模型。具体来说,TOPOS能够生成具有固定拓扑结构的高质量头部网格,并且在几何细节和纹理细节方面都表现出色。这些结果表明TOPOS在数字人创建方面具有很高的实用价值。
🎯 应用场景
TOPOS在电影、动画、视频游戏等行业具有广泛的应用前景。它可以用于快速生成具有一致拓扑结构的高质量3D头部模型,从而加速数字角色的创建过程。此外,TOPOS还可以应用于虚拟现实、增强现实、社交媒体等领域,例如创建个性化的虚拟化身。
📄 摘要(原文)
High-fidelity 3D head generation plays a crucial role in the film, animation and video game industries. In industrial pipelines, studios typically enforce a fixed reference topology across all head assets, as such a clean and uniform topology is a prerequisite for production-level rigging, skinning and animation. In this paper, we present TOPOS, a framework tailored for single image conditioned 3D head generation that jointly recovers geometry and appearance under such an industry-standard topology. In contrast to general 3D generative models which produce triangle meshes with inconsistent topology and numerous vertices, hindering semantic correspondence and asset-level reuse, TOPOS generates head meshes with a fixed, studio-style topology, enabling consistent vertex-level correspondence across all generated heads. To model heads under this unified topology, we proposed a novel variational autoencoder structure, termed TOPOS-VAE. Inspired by multi-model large language models (MLLMs), our TOPOS-VAE leverages the Perceiver Resampler to convert input pointclouds sampled from head meshes of diverse topologies into the target reference topology. Building upon TOPOS-VAE's structured latent space, we train a rectified flow transformer, TOPOS-DiT, to efficiently generate high-fidelity head meshes from a single image. We further present TOPOS-Texture, an end-to-end module that produces relightable UV texture maps from the same portrait image via fine-tuning a multimodal image generative model. The generated textures are spatially aligned with the underlying mesh geometry and faithfully preserve high-frequency appearance details. Extensive experiments demonstrate that TOPOS achieves state-of-the-art performance on 3D head generation, surpassing both classical face reconstruction methods and general 3D object generative models, highlighting its effectiveness for digital human creation.