M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation

作者: Kui Jiang, Shiyu Liu, Junjun Jiang, Hongxun Yao, Xiaopeng Fan

分类: cs.CV

发布日期: 2025-07-11 (更新: 2025-08-14)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

M2DAO-Talker：通过多粒度运动解耦和交替优化实现逼真的说话人头部生成

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 说话人头部生成 音频驱动 运动解耦 交替优化 渲染重建 运动建模 视频生成

📋 核心要点

现有3D说话人头部生成方法在表示精细运动场时存在渲染伪影，如运动模糊和局部穿透，影响生成质量。
M2DAO-Talker通过多粒度运动解耦（刚性和非刚性）和交替优化策略，提升运动建模的准确性和真实感。
实验结果表明，M2DAO-Talker在生成质量和用户感知的真实感方面均优于现有方法，并具有较高的推理速度。

📝 摘要（中文）

本文提出了一种用于音频驱动的说话人头部生成方法M2DAO-Talker，旨在解决现有3D方法在表示稳定、精细的运动场时产生的渲染伪影问题，如运动模糊、时间抖动和局部穿透。通过系统分析，我们将说话人头部生成重新定义为一个包含视频预处理、运动表示和渲染重建的统一框架。M2DAO-Talker通过多粒度运动解耦和交替优化来解决当前局限性。具体来说，我们设计了一种新颖的2D人像预处理流程，以提取逐帧变形控制条件（运动区域分割掩码和相机参数），从而促进运动表示。为了改善运动建模，我们详细阐述了一种多粒度运动解耦策略，该策略独立地对非刚性（口部和面部）和刚性（头部）运动进行建模，以提高重建精度。同时，开发了一种运动一致性约束，以确保头部-躯干运动学一致性，从而减轻由运动混叠引起的穿透伪影。此外，设计了一种交替优化策略来迭代地细化面部和口部运动参数，从而实现更逼真的视频生成。在多个数据集上的实验表明，M2DAO-Talker实现了最先进的性能，在生成质量方面PSNR提高了2.43 dB，在用户评估的视频真实感方面比TalkingGaussian提高了0.64，同时具有150 FPS的推理速度。

🔬 方法详解

问题定义：现有音频驱动的说话人头部生成方法，特别是基于3D的方法，在生成高质量、逼真的说话人视频时面临挑战。主要痛点在于难以准确建模和渲染精细的头部运动，导致运动模糊、时间抖动以及头部和身体之间的穿透等伪影。这些问题源于对复杂运动场的表示能力不足，以及缺乏对刚性和非刚性运动的有效解耦。

核心思路：M2DAO-Talker的核心思路是将说话人头部生成问题分解为三个关键步骤：视频预处理、运动表示和渲染重建。通过对这三个步骤进行优化，特别是引入多粒度运动解耦和交替优化策略，可以更准确地建模头部运动，并生成更逼真的说话人视频。这种分解和优化策略旨在解决现有方法在运动建模和渲染方面的局限性。

技术框架：M2DAO-Talker的整体框架包含以下几个主要模块： 1. 2D人像预处理：提取逐帧变形控制条件，包括运动区域分割掩码和相机参数。 2. 多粒度运动解耦：独立建模非刚性（口部和面部）和刚性（头部）运动。 3. 运动一致性约束：确保头部-躯干运动学一致性。 4. 交替优化：迭代地细化面部和口部运动参数。 5. 渲染重建：将运动信息渲染成最终的说话人视频。

关键创新：M2DAO-Talker的关键创新在于以下几点： 1. 多粒度运动解耦：将头部运动分解为刚性（头部）和非刚性（面部和口部）运动，并分别进行建模，提高了运动建模的精度。 2. 交替优化策略：通过迭代优化面部和口部运动参数，进一步提升了生成视频的真实感。 3. 运动一致性约束：通过约束头部和躯干的运动一致性，减少了穿透伪影。

关键设计： 1. 2D人像预处理：使用特定的网络结构（具体结构未知）提取运动区域分割掩码和相机参数，为后续的运动建模提供控制条件。 2. 多粒度运动解耦：使用不同的网络结构（具体结构未知）分别建模刚性和非刚性运动，并设计特定的损失函数来优化这些网络。 3. 运动一致性约束：通过设计特定的损失函数来约束头部和躯干的运动一致性，例如，可以使用基于物理的约束或基于学习的约束。 4. 交替优化：使用Adam优化器或其他优化器，迭代地优化面部和口部运动参数，并设计合适的学习率和迭代次数。

🖼️ 关键图片

📊 实验亮点

M2DAO-Talker在多个数据集上取得了最先进的性能。与TalkingGaussian相比，在生成质量方面PSNR提高了2.43 dB，在用户评估的视频真实感方面提高了0.64。此外，M2DAO-Talker还具有150 FPS的推理速度，表明其具有较高的效率，可以满足实时应用的需求。

🎯 应用场景

M2DAO-Talker在电影制作、虚拟现实、在线教育、人机交互等领域具有广泛的应用前景。它可以用于创建逼真的虚拟角色，生成高质量的配音视频，以及改善人机交互的自然性和真实感。该技术还可以应用于数字内容创作，例如，生成个性化的虚拟助手或虚拟主播，从而提升用户体验。

📄 摘要（原文）

Audio-driven talking head generation holds significant potential for film production. While existing 3D methods have advanced motion modeling and content synthesis, they often produce rendering artifacts, such as motion blur, temporal jitter, and local penetration, due to limitations in representing stable, fine-grained motion fields. Through systematic analysis, we reformulate talking head generation into a unified framework comprising three steps: video preprocessing, motion representation, and rendering reconstruction. This framework underpins our proposed M2DAO-Talker, which addresses current limitations via multi-granular motion decoupling and alternating optimization. Specifically, we devise a novel 2D portrait preprocessing pipeline to extract frame-wise deformation control conditions (motion region segmentation masks, and camera parameters) to facilitate motion representation. To ameliorate motion modeling, we elaborate a multi-granular motion decoupling strategy, which independently models non-rigid (oral and facial) and rigid (head) motions for improved reconstruction accuracy. Meanwhile, a motion consistency constraint is developed to ensure head-torso kinematic consistency, thereby mitigating penetration artifacts caused by motion aliasing. In addition, an alternating optimization strategy is designed to iteratively refine facial and oral motion parameters, enabling more realistic video generation. Experiments across multiple datasets show that M2DAO-Talker achieves state-of-the-art performance, with the 2.43 dB PSNR improvement in generation quality and 0.64 gain in user-evaluated video realness versus TalkingGaussian while with 150 FPS inference speed. Our project homepage is https://m2dao-talker.github.io/M2DAO-Talk.github.io.

M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理