Dream, Lift, Animate: From Single Images to Animatable Gaussian Avatars

作者: Marcel C. Bühler, Ye Yuan, Xueting Li, Yangyi Huang, Koki Nagano, Umar Iqbal

分类: cs.GR, cs.AI

发布日期: 2025-07-21 (更新: 2025-11-17)

备注: Accepted to 3DV 2026

💡 一句话要点

DLA：从单张图像生成可动画的高斯人像，实现高质量的3D重建与动画

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 3D人体重建 可动画人像 高斯体 视频扩散模型 UV空间映射

📋 核心要点

现有方法难以仅从单张图像重建高质量、可动画的3D人体化身，尤其是在几何细节和动画一致性方面。
DLA利用视频扩散模型生成多视角图像，并将其提升为3D高斯体，再通过UV空间映射实现姿态感知动画。
实验表明，DLA在ActorsHQ和4D-Dress数据集上，在感知质量和光度精度方面均超越了现有技术水平。

📝 摘要（中文）

本文提出了一种名为Dream, Lift, Animate (DLA) 的新框架，该框架仅从单张图像重建可动画的3D人体化身。DLA通过利用多视角生成、3D高斯提升以及3D高斯体的姿态感知UV空间映射来实现这一目标。给定一张图像，我们首先使用视频扩散模型生成合理的多视角图像，捕捉丰富的几何和外观细节。然后，这些视角被提升为非结构化的3D高斯体。为了实现动画，我们提出了一个基于Transformer的编码器，该编码器对全局空间关系进行建模，并将这些高斯体投影到与参数化人体模型的UV空间对齐的结构化潜在表示中。该潜在代码被解码为UV空间高斯体，这些高斯体可以通过身体驱动的变形进行动画，并根据姿势和视点进行渲染。通过将高斯体锚定到UV流形，我们的方法确保了动画期间的一致性，同时保留了精细的视觉细节。DLA支持实时渲染和直观编辑，无需后处理。在ActorsHQ和4D-Dress数据集上，我们的方法在感知质量和光度精度方面均优于最先进的方法。通过结合视频扩散模型的生成优势和姿态感知的UV空间高斯映射，DLA弥合了非结构化3D表示和高保真、可动画化身之间的差距。

🔬 方法详解

问题定义：现有方法在单视图3D人体重建中，难以生成高质量、可动画的模型。尤其是在纹理细节的保持和动画过程中的一致性方面存在挑战。此外，从非结构化的3D表示到可动画模型的转换过程也较为复杂。

核心思路：DLA的核心思路是结合视频扩散模型的生成能力和3D高斯体的表达能力，通过UV空间映射建立3D高斯体与人体姿态之间的联系，从而实现高质量、可动画的3D人体重建。通过多视角生成增强几何信息，UV空间映射保证动画一致性。

技术框架：DLA框架主要包含三个阶段：1) 多视角生成：使用视频扩散模型从单张图像生成多视角图像，以补充几何信息。2) 3D高斯提升：将生成的多视角图像提升为非结构化的3D高斯体。3) 姿态感知UV空间映射：使用Transformer编码器将3D高斯体投影到与参数化人体模型的UV空间对齐的潜在表示中，并解码为可动画的UV空间高斯体。

关键创新：DLA的关键创新在于姿态感知的UV空间高斯映射。通过将3D高斯体锚定到UV流形，DLA能够确保动画过程中的一致性，并保留精细的视觉细节。此外，使用Transformer编码器建模全局空间关系，提高了重建质量。

关键设计：DLA使用预训练的视频扩散模型进行多视角生成。Transformer编码器的具体结构未知，但其目标是学习3D高斯体与UV空间之间的映射关系。损失函数可能包含光度损失、几何损失以及正则化项，以保证重建质量和动画的平滑性。UV空间的参数化人体模型可能是SMPL或类似的模型。

🖼️ 关键图片

📊 实验亮点

DLA在ActorsHQ和4D-Dress数据集上取得了显著的性能提升。在感知质量和光度精度方面，DLA均优于现有技术水平。具体的数据指标和提升幅度未知，但摘要中明确指出DLA超越了state-of-the-art方法。

🎯 应用场景

DLA具有广泛的应用前景，包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于创建逼真的虚拟化身，用于社交互动、远程协作和个性化内容生成。此外，DLA还可以用于服装设计、虚拟试穿等应用，为用户提供更加个性化的体验。

📄 摘要（原文）

We introduce Dream, Lift, Animate (DLA), a novel framework that reconstructs animatable 3D human avatars from a single image. This is achieved by leveraging multi-view generation, 3D Gaussian lifting, and pose-aware UV-space mapping of 3D Gaussians. Given an image, we first dream plausible multi-views using a video diffusion model, capturing rich geometric and appearance details. These views are then lifted into unstructured 3D Gaussians. To enable animation, we propose a transformer-based encoder that models global spatial relationships and projects these Gaussians into a structured latent representation aligned with the UV space of a parametric body model. This latent code is decoded into UV-space Gaussians that can be animated via body-driven deformation and rendered conditioned on pose and viewpoint. By anchoring Gaussians to the UV manifold, our method ensures consistency during animation while preserving fine visual details. DLA enables real-time rendering and intuitive editing without requiring post-processing. Our method outperforms state-of-the-art approaches on the ActorsHQ and 4D-Dress datasets in both perceptual quality and photometric accuracy. By combining the generative strengths of video diffusion models with a pose-aware UV-space Gaussian mapping, DLA bridges the gap between unstructured 3D representations and high-fidelity, animation-ready avatars.

Dream, Lift, Animate: From Single Images to Animatable Gaussian Avatars

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理