One Shot, One Talk: Whole-body Talking Avatar from a Single Image
作者: Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang
分类: cs.CV, cs.GR
发布日期: 2024-12-02
备注: Project Page: https://ustc3dv.github.io/OneShotOneTalk/
💡 一句话要点
提出一种基于单张图像生成全身可控说话人像的方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 全身人像生成 单张图像 说话人像 姿势引导 扩散模型
📋 核心要点
- 现有全身人像生成方法依赖多视角或自旋转视频,且姿态控制精度不足。
- 利用姿势引导的图像到视频扩散模型生成伪标签,并结合3DGS-mesh混合表示,实现从单张图像生成说话人像。
- 实验证明,该方法能够从单张图像生成逼真、可控且富有表现力的全身说话人像。
📝 摘要(中文)
构建逼真且可动画化的人像通常需要数分钟的多视角或单目自旋转视频,并且大多数方法缺乏对姿势和表情的精确控制。为了突破这一限制,本文提出了一种从单张图像构建全身说话人像的方法。该方法解决两个关键问题:1) 复杂的动态建模;2) 对新姿势和表情的泛化。为了实现无缝泛化,我们利用最新的姿势引导图像到视频扩散模型来生成不完美的视频帧作为伪标签。为了克服由不一致和嘈杂的伪视频带来的动态建模挑战,我们引入了一种紧密耦合的3DGS-mesh混合人像表示,并应用了几个关键的正则化来减轻由不完美标签引起的不一致性。对不同对象的广泛实验表明,我们的方法能够仅从单张图像创建逼真、精确可动画化且富有表现力的全身说话人像。
🔬 方法详解
问题定义:现有全身说话人像生成方法需要多视角或单目自旋转视频,这限制了其易用性。此外,现有方法在控制人像的姿势和表情方面存在不足,难以生成自然且可控的说话人像。因此,本文旨在解决如何仅从单张图像生成逼真、可控的全身说话人像的问题。
核心思路:本文的核心思路是利用姿势引导的图像到视频扩散模型生成伪标签,从而克服单张图像信息不足的问题。同时,为了解决伪标签中存在的噪声和不一致性,本文引入了一种紧密耦合的3DGS-mesh混合人像表示,并设计了相应的正则化方法,以提高生成人像的质量和稳定性。
技术框架:该方法主要包含以下几个阶段:1) 使用姿势估计器从单张图像中提取人体姿势;2) 利用姿势引导的图像到视频扩散模型,根据提取的姿势生成伪视频序列;3) 使用3DGS-mesh混合人像表示对伪视频序列进行建模,并应用正则化方法来提高人像的质量和稳定性;4) 使用训练好的模型,根据给定的姿势和语音生成目标说话人像。
关键创新:该方法最重要的技术创新点在于:1) 提出了一种基于伪标签的单张图像全身说话人像生成方法,克服了单张图像信息不足的难题;2) 引入了一种紧密耦合的3DGS-mesh混合人像表示,能够更好地建模人像的几何结构和纹理信息;3) 设计了相应的正则化方法,有效减轻了伪标签中噪声和不一致性对生成结果的影响。
关键设计:在3DGS-mesh混合人像表示中,3DGS用于表示人像的整体形状和纹理,mesh用于表示人像的细节信息,例如面部表情和手势。为了实现紧密耦合,本文设计了一种损失函数,鼓励3DGS和mesh之间的一致性。此外,本文还设计了多种正则化方法,例如时间一致性正则化、姿势一致性正则化和身份一致性正则化,以提高生成人像的质量和稳定性。扩散模型使用ControlNet进行姿势引导,损失函数包括L1损失、感知损失和对抗损失等。
🖼️ 关键图片
📊 实验亮点
该方法在多个数据集上进行了实验,结果表明,该方法能够仅从单张图像生成逼真、可控且富有表现力的全身说话人像。与现有方法相比,该方法在生成人像的质量、姿势控制精度和表情丰富度方面均有显著提升。用户研究也表明,用户对该方法生成的人像的逼真度和可控性给予了高度评价。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏、社交媒体等领域。例如,用户可以使用单张照片创建自己的虚拟形象,并在虚拟世界中进行交流和互动。此外,该技术还可以用于生成个性化的视频内容,例如定制化的生日祝福视频或产品宣传视频。未来,该技术有望进一步发展,实现更加逼真、可控和个性化的虚拟人像生成。
📄 摘要(原文)
Building realistic and animatable avatars still requires minutes of multi-view or monocular self-rotating videos, and most methods lack precise control over gestures and expressions. To push this boundary, we address the challenge of constructing a whole-body talking avatar from a single image. We propose a novel pipeline that tackles two critical issues: 1) complex dynamic modeling and 2) generalization to novel gestures and expressions. To achieve seamless generalization, we leverage recent pose-guided image-to-video diffusion models to generate imperfect video frames as pseudo-labels. To overcome the dynamic modeling challenge posed by inconsistent and noisy pseudo-videos, we introduce a tightly coupled 3DGS-mesh hybrid avatar representation and apply several key regularizations to mitigate inconsistencies caused by imperfect labels. Extensive experiments on diverse subjects demonstrate that our method enables the creation of a photorealistic, precisely animatable, and expressive whole-body talking avatar from just a single image.