SynergyWarpNet: Attention-Guided Cooperative Warping for Neural Portrait Animation

📄 arXiv: 2512.17331v1 📥 PDF

作者: Shihang Li, Zhiqiang Gong, Minming Ye, Yue Gao, Wen Yao

分类: cs.CV

发布日期: 2025-12-19

备注: Submitted to ICASSP 2026


💡 一句话要点

SynergyWarpNet:用于神经肖像动画的注意力引导协同扭曲网络

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经肖像动画 协同扭曲 注意力机制 图像合成 说话人头部合成

📋 核心要点

  1. 现有神经肖像动画方法在运动传递和区域恢复方面存在不足,尤其是在处理遮挡和形变时。
  2. SynergyWarpNet利用显式扭曲、参考图像增强和置信度引导融合,实现更精确和自然的肖像动画。
  3. 实验结果表明,该方法在基准数据集上取得了优于现有技术的性能,提升了肖像动画的质量。

📝 摘要(中文)

本文提出了一种名为SynergyWarpNet的注意力引导协同扭曲框架,用于高保真说话人头部合成。针对神经肖像动画中传统显式扭曲方法难以精确传递运动或恢复缺失区域,以及现有基于注意力扭曲方法复杂度高且几何基础薄弱的问题,该模型通过三个阶段逐步优化动画效果。首先,显式扭曲模块使用3D稠密光流对源图像和驱动图像进行粗略的空间对齐。然后,参考增强校正模块利用多个参考图像的3D关键点和纹理特征进行交叉注意力,以语义上补全遮挡或扭曲区域。最后,置信度引导融合模块通过空间自适应融合集成扭曲后的输出,并使用学习到的置信度图来平衡结构对齐和视觉一致性。在基准数据集上的综合评估表明,该方法达到了最先进的性能。

🔬 方法详解

问题定义:神经肖像动画旨在根据驱动图像将源肖像图像进行动画处理,使其呈现出驱动图像中的表情和姿态。现有方法主要面临两个挑战:一是传统的显式扭曲方法难以精确地传递复杂的面部运动,尤其是在大姿态变化或遮挡情况下;二是基于注意力机制的方法虽然能够处理遮挡,但往往计算复杂度高,且缺乏明确的几何约束,容易产生不自然的扭曲效果。

核心思路:SynergyWarpNet的核心思路是结合显式几何扭曲和隐式注意力机制的优势,通过协同扭曲的方式逐步优化动画效果。首先利用显式扭曲进行粗略的运动传递,然后利用参考图像的信息通过注意力机制进行语义补全和细节增强,最后通过置信度引导的融合策略平衡结构对齐和视觉一致性。

技术框架:SynergyWarpNet包含三个主要模块:1) 显式扭曲模块:利用3D稠密光流估计源图像和驱动图像之间的运动场,并进行粗略的图像扭曲。2) 参考增强校正模块:利用多个参考图像,通过交叉注意力机制学习参考图像的特征,并将其用于补全和校正扭曲后的图像。3) 置信度引导融合模块:学习一个置信度图,用于指导融合显式扭曲和参考增强校正模块的输出,从而在结构对齐和视觉一致性之间取得平衡。

关键创新:该方法的主要创新在于:1) 提出了一个协同扭曲框架,结合了显式几何扭曲和隐式注意力机制的优势,能够更精确地传递运动和恢复缺失区域。2) 引入了参考增强校正模块,利用多个参考图像的信息进行语义补全和细节增强,提高了动画的真实感。3) 设计了置信度引导融合模块,能够自适应地平衡结构对齐和视觉一致性,避免了扭曲伪影的产生。

关键设计:在显式扭曲模块中,使用了预训练的3D人脸模型来估计稠密光流。在参考增强校正模块中,使用了交叉注意力机制来学习参考图像的特征,并将其用于补全和校正扭曲后的图像。在置信度引导融合模块中,使用了一个卷积神经网络来学习置信度图,并使用该置信度图来加权融合显式扭曲和参考增强校正模块的输出。损失函数包括光流损失、重建损失和对抗损失,用于保证动画的质量和真实感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在基准数据集上进行了全面的评估,实验结果表明SynergyWarpNet在肖像动画质量方面达到了最先进的水平。相较于现有方法,该方法能够更精确地传递运动,恢复缺失区域,并生成更自然的动画效果。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

SynergyWarpNet在虚拟化身、远程呈现和数字内容创作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟角色,实现高质量的远程视频会议,以及生成各种有趣的数字内容,例如动画短片和互动游戏。该技术有望提升人机交互的自然性和沉浸感,并为数字娱乐产业带来新的发展机遇。

📄 摘要(原文)

Recent advances in neural portrait animation have demonstrated remarked potential for applications in virtual avatars, telepresence, and digital content creation. However, traditional explicit warping approaches often struggle with accurate motion transfer or recovering missing regions, while recent attention-based warping methods, though effective, frequently suffer from high complexity and weak geometric grounding. To address these issues, we propose SynergyWarpNet, an attention-guided cooperative warping framework designed for high-fidelity talking head synthesis. Given a source portrait, a driving image, and a set of reference images, our model progressively refines the animation in three stages. First, an explicit warping module performs coarse spatial alignment between the source and driving image using 3D dense optical flow. Next, a reference-augmented correction module leverages cross-attention across 3D keypoints and texture features from multiple reference images to semantically complete occluded or distorted regions. Finally, a confidence-guided fusion module integrates the warped outputs with spatially-adaptive fusing, using a learned confidence map to balance structural alignment and visual consistency. Comprehensive evaluations on benchmark datasets demonstrate state-of-the-art performance.