DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

作者: Yuxiang Shi, Zhe Li, Yanwen Wang, Hao Zhu, Xun Cao, Ligang Liu

分类: cs.CV

发布日期: 2025-12-17

备注: Projectpage: https://syx132.github.io/DeX-Portrait/

💡 一句话要点

DeX-Portrait：通过显式和隐式运动表征实现解耦且富有表现力的人像动画

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 人像动画 解耦控制 扩散模型 姿态估计 表情识别 深度学习 生成模型

📋 核心要点

现有基于扩散模型的人像动画方法难以实现头部姿态和面部表情之间的高保真解耦控制，限制了仅表情或仅姿态编辑等应用。
DeX-Portrait通过显式姿态变换和隐式表情潜在编码，结合运动训练器和双分支条件扩散模型，实现解耦且富有表现力的人像动画。
实验结果表明，DeX-Portrait在动画质量和解耦可控性方面超越了现有技术水平，为相关应用提供了更强大的工具。

📝 摘要（中文）

本文提出DeX-Portrait，一种新颖的方法，旨在从单张源图像和驱动视频生成富有表现力的人像动画，并实现头部姿态和面部表情之间的高保真解耦控制。该方法利用显式的全局变换表示姿态，隐式的潜在编码表示表情。首先，设计了一个强大的运动训练器，学习姿态和表情编码器，以提取精确且分解的驱动信号。然后，通过双分支条件机制将姿态变换注入扩散模型，并通过交叉注意力注入表情潜在编码。最后，设计了一种渐进式混合无分类器引导，以实现更忠实的身份一致性。实验表明，该方法在动画质量和解耦可控性方面均优于最先进的基线方法。

🔬 方法详解

问题定义：现有的人像动画方法，特别是基于扩散模型的方法，在解耦头部姿态和面部表情控制方面存在不足。这使得用户难以独立地编辑或控制人像的姿态和表情，限制了其在特定应用场景下的灵活性和实用性。现有方法难以同时保证动画的真实性和可控性。

核心思路：DeX-Portrait的核心思路是将姿态和表情分别用显式和隐式的方式进行建模和控制。姿态使用显式的全局变换矩阵表示，便于精确控制；表情则使用隐式的潜在编码表示，以捕捉更细微和丰富的表情变化。通过解耦姿态和表情的表示，并分别注入到扩散模型中，实现对人像动画的精细控制。

技术框架：DeX-Portrait的整体框架包含以下几个主要模块：1) 运动训练器：用于学习姿态和表情编码器，从驱动视频中提取解耦的姿态和表情信号。2) 双分支条件扩散模型：将姿态变换通过一个分支注入扩散模型，表情潜在编码通过交叉注意力机制注入另一个分支。3) 渐进式混合无分类器引导：用于增强身份一致性，确保生成的人像与源图像保持一致。整个流程首先提取驱动视频的姿态和表情信息，然后将其注入到扩散模型中生成动画，最后通过引导机制优化生成结果。

关键创新：DeX-Portrait的关键创新在于：1) 显式姿态和隐式表情的解耦表示，实现了对姿态和表情的独立控制。2) 双分支条件扩散模型，能够有效地融合姿态变换和表情潜在编码。3) 渐进式混合无分类器引导，提高了生成人像的身份一致性。与现有方法相比，DeX-Portrait在解耦控制和动画质量方面都取得了显著提升。

关键设计：运动训练器使用对比学习损失来学习姿态和表情编码器，确保提取的特征具有区分性。双分支条件扩散模型中，姿态分支使用仿射变换来调整扩散过程中的特征图，表情分支使用交叉注意力机制来融合表情信息。渐进式混合无分类器引导通过逐步增加引导强度，平衡了生成质量和身份一致性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DeX-Portrait在动画质量和解耦可控性方面均优于现有的最先进方法。通过定量评估和定性比较，证明了该方法在生成逼真且可控的人像动画方面的优势。例如，在身份一致性指标上，DeX-Portrait相比基线方法提升了显著的百分比。用户研究也表明，DeX-Portrait生成的人像动画更具表现力，且姿态和表情控制更加自然。

🎯 应用场景

DeX-Portrait具有广泛的应用前景，包括虚拟形象定制、数字内容创作、电影特效、游戏开发、视频会议等领域。该技术可以用于创建高度个性化和富有表现力的虚拟角色，提升用户在数字环境中的交互体验。此外，该技术还可以用于生成逼真的人像动画，为电影和游戏制作提供更高效和灵活的解决方案。未来，该技术有望应用于更多需要人像动画的场景，例如教育、医疗等。

📄 摘要（原文）

Portrait animation from a single source image and a driving video is a long-standing problem. Recent approaches tend to adopt diffusion-based image/video generation models for realistic and expressive animation. However, none of these diffusion models realizes high-fidelity disentangled control between the head pose and facial expression, hindering applications like expression-only or pose-only editing and animation. To address this, we propose DeX-Portrait, a novel approach capable of generating expressive portrait animation driven by disentangled pose and expression signals. Specifically, we represent the pose as an explicit global transformation and the expression as an implicit latent code. First, we design a powerful motion trainer to learn both pose and expression encoders for extracting precise and decomposed driving signals. Then we propose to inject the pose transformation into the diffusion model through a dual-branch conditioning mechanism, and the expression latent through cross attention. Finally, we design a progressive hybrid classifier-free guidance for more faithful identity consistency. Experiments show that our method outperforms state-of-the-art baselines on both animation quality and disentangled controllability.

DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册