ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

📄 arXiv: 2503.21144v1 📥 PDF

作者: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

分类: cs.CV

发布日期: 2025-03-27

备注: Project Page: https://humanaigc.github.io/chat-anyone/


💡 一句话要点

ChatAnyone:基于分层运动扩散模型的风格化实时人像视频生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 人像视频生成 实时视频聊天 运动扩散模型 风格化 上半身运动 手势控制 深度学习 音频驱动

📋 核心要点

  1. 现有方法主要关注头部运动的实时生成,难以产生与头部动作同步的身体运动,且难以精细控制说话风格和面部表情。
  2. 提出一种新颖的风格化实时人像视频生成框架,利用分层运动扩散模型和显式手部控制信号,实现头部与上半身动作的同步和风格化。
  3. 实验结果表明,该方法能够生成具有丰富表现力和自然上半身运动的人像视频,并在4090 GPU上实现高达30fps的实时生成。

📝 摘要(中文)

本文提出了一种用于风格化实时人像视频生成的新框架,旨在实现更具表现力和灵活性的视频聊天,将交互范围从头部扩展到上半身。该方法包含两个阶段:首先,利用高效的分层运动扩散模型,该模型基于音频输入,同时考虑显式和隐式运动表示,从而生成具有风格控制和头部与身体运动同步的各种面部表情。其次,生成包含上半身运动(包括手势)的人像视频。通过将显式手部控制信号注入生成器,产生更精细的手部动作,并进行面部细化,以增强人像视频的整体真实感和表现力。该方法支持在4090 GPU上以高达30fps的速度高效且连续地生成最大512 * 768分辨率的上半身人像视频,从而支持实时交互式视频聊天。实验结果表明,该方法能够生成具有丰富表现力和自然上半身运动的人像视频。

🔬 方法详解

问题定义:现有实时视频聊天人像生成方法主要集中在头部运动的生成,缺乏对上半身运动(特别是手势)的同步建模和控制,导致生成的人像视频缺乏自然性和表现力。此外,对说话风格和面部表情的精细控制也是一个挑战。

核心思路:本文的核心思路是利用分层运动扩散模型,从音频输入中提取显式和隐式运动表示,从而生成同步的头部和身体运动。同时,通过注入显式手部控制信号,实现对上半身运动的精细控制,并进行面部细化,提升视频的真实感和表现力。

技术框架:该框架包含两个主要阶段:1) 分层运动扩散模型:该模型基于音频输入生成头部和身体的运动表示,实现风格控制和同步。2) 人像视频生成:将运动表示和显式手部控制信号输入生成器,生成包含上半身运动的人像视频,并进行面部细化。

关键创新:该方法的主要创新点在于:1) 提出了分层运动扩散模型,能够同时建模头部和身体的运动,实现同步和风格化。2) 引入了显式手部控制信号,实现了对上半身运动的精细控制。3) 实现了在高性能GPU上的实时生成,支持交互式视频聊天。

关键设计:分层运动扩散模型的设计细节未知,但强调了显式和隐式运动表示的结合。显式手部控制信号的具体形式未知,但其目的是为了更精细地控制手部动作。面部细化的具体方法未知,但其目的是提升人像视频的真实感和表现力。论文提到在4090 GPU上实现了30fps的生成速度,分辨率为512*768。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法能够在4090 GPU上以高达30fps的速度生成512 * 768分辨率的上半身人像视频,支持实时交互式视频聊天。实验结果表明,该方法能够生成具有丰富表现力和自然上半身运动的人像视频。具体的性能数据和对比基线未知,但强调了在实时性和生成质量上的平衡。

🎯 应用场景

该研究成果可广泛应用于实时视频聊天、虚拟主播、数字人、远程教育、游戏等领域。通过生成更具表现力和自然性的人像视频,可以提升用户在这些应用中的交互体验,并为内容创作提供更多可能性。未来,该技术有望进一步扩展到全身运动的生成和更精细的风格控制。

📄 摘要(原文)

Real-time interactive video-chat portraits have been increasingly recognized as the future trend, particularly due to the remarkable progress made in text and voice chat technologies. However, existing methods primarily focus on real-time generation of head movements, but struggle to produce synchronized body motions that match these head actions. Additionally, achieving fine-grained control over the speaking style and nuances of facial expressions remains a challenge. To address these limitations, we introduce a novel framework for stylized real-time portrait video generation, enabling expressive and flexible video chat that extends from talking head to upper-body interaction. Our approach consists of the following two stages. The first stage involves efficient hierarchical motion diffusion models, that take both explicit and implicit motion representations into account based on audio inputs, which can generate a diverse range of facial expressions with stylistic control and synchronization between head and body movements. The second stage aims to generate portrait video featuring upper-body movements, including hand gestures. We inject explicit hand control signals into the generator to produce more detailed hand movements, and further perform face refinement to enhance the overall realism and expressiveness of the portrait video. Additionally, our approach supports efficient and continuous generation of upper-body portrait video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting interactive video-chat in real-time. Experimental results demonstrate the capability of our approach to produce portrait videos with rich expressiveness and natural upper-body movements.