AvatarPointillist: AutoRegressive 4D Gaussian Avatarization

📄 arXiv: 2604.04787 📥 PDF

作者: Hongyu Liu, Xuan Wang, Yating Wang, Zijian Wu, Ziyu Wan, Yue Ma, Runtao Liu, Boyao Zhou, Yujun Shen, Qifeng Chen

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

AvatarPointillist:提出一种自回归4D高斯头像生成框架,从单张人像生成动态头像。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态头像生成 自回归模型 3D高斯Splatting Transformer 单张图像重建

📋 核心要点

  1. 现有动态头像生成方法难以在保真度和可控性之间取得平衡,尤其是在单张图像输入的情况下。
  2. AvatarPointillist 采用自回归 Transformer 生成 3D 高斯 Splatting 的点云,实现自适应的点密度调整和动画绑定。
  3. 实验表明,该方法能够生成高质量、照片般逼真且可控的头像,为头像生成提供了一种新的自回归范式。

📝 摘要(中文)

AvatarPointillist 是一种新颖的框架,用于从单张人像图像生成动态 4D 高斯头像。该方法的核心是一个仅解码器的 Transformer,它自回归地生成用于 3D 高斯 Splatting 的点云。这种顺序方法允许精确的自适应构建,根据主体的复杂性动态调整点密度和点的总数。在点生成过程中,自回归模型还联合预测每个点的绑定信息,从而实现逼真的动画。生成后,专用的高斯解码器将点转换为完整的、可渲染的高斯属性。实验表明,对来自自回归生成器的潜在特征进行条件解码,能够实现阶段之间的有效交互,并显着提高保真度。大量实验验证了 AvatarPointillist 可以生成高质量、照片般逼真且可控的头像。这种自回归公式代表了头像生成的新范例,我们将发布代码以激发未来的研究。

🔬 方法详解

问题定义:现有方法在单张图像生成动态头像时,难以兼顾生成质量、动画效果和可控性。尤其是在细节丰富的人物头像上,如何自适应地调整点云密度,并保证动画的真实性是一个挑战。

核心思路:AvatarPointillist 的核心在于使用自回归 Transformer 逐步生成 3D 高斯 Splatting 的点云。这种自回归的方式允许模型根据已生成的部分动态调整后续点的生成,从而实现自适应的点密度控制。同时,模型还预测每个点的绑定信息,用于后续的动画生成。

技术框架:AvatarPointillist 的整体框架包含一个自回归生成器和一个高斯解码器。自回归生成器是一个仅解码器的 Transformer,它以自回归的方式生成点云,并预测每个点的绑定信息。高斯解码器则将生成的点云转换为可渲染的高斯属性。两个模块之间通过潜在特征进行信息交互,提高生成质量。

关键创新:AvatarPointillist 的关键创新在于其自回归的点云生成方式。与以往方法不同,该方法不是一次性生成所有点,而是逐步生成,并根据已生成的部分动态调整后续点的生成。这种方式能够更好地适应不同复杂度的头像,并生成更精细的细节。

关键设计:自回归生成器使用 Transformer 解码器,输入是先前生成的点云序列,输出是下一个点的坐标和绑定信息。高斯解码器则使用一个神经网络将点云转换为高斯属性,例如位置、缩放和颜色。损失函数包括重建损失和正则化损失,用于保证生成质量和动画的真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AvatarPointillist 能够生成高质量、照片般逼真且可控的头像。与现有方法相比,AvatarPointillist 在生成质量和动画效果方面均有显著提升。通过对自回归生成器的潜在特征进行条件解码,能够有效提高生成头像的保真度。作者计划开源代码,以促进未来研究。

🎯 应用场景

AvatarPointillist 可应用于虚拟现实、增强现实、游戏、社交媒体等领域,为用户提供个性化、高质量的动态头像。该技术可以用于创建逼真的虚拟形象,提升用户在虚拟环境中的沉浸感和互动体验。此外,该技术还可以用于生成动画角色,降低动画制作的成本和时间。

📄 摘要(原文)

We introduce AvatarPointillist, a novel framework for generating dynamic 4D Gaussian avatars from a single portrait image. At the core of our method is a decoder-only Transformer that autoregressively generates a point cloud for 3D Gaussian Splatting. This sequential approach allows for precise, adaptive construction, dynamically adjusting point density and the total number of points based on the subject's complexity. During point generation, the AR model also jointly predicts per-point binding information, enabling realistic animation. After generation, a dedicated Gaussian decoder converts the points into complete, renderable Gaussian attributes. We demonstrate that conditioning the decoder on the latent features from the AR generator enables effective interaction between stages and markedly improves fidelity. Extensive experiments validate that AvatarPointillist produces high-quality, photorealistic, and controllable avatars. We believe this autoregressive formulation represents a new paradigm for avatar generation, and we will release our code inspire future research.