Follow Your Motion: A Generic Temporal Consistency Portrait Editing Framework with Trajectory Guidance
作者: Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang
分类: cs.CV
发布日期: 2025-03-28
备注: https://anonymous-hub1127.github.io/FYM.github.io/
💡 一句话要点
提出FYM框架,通过轨迹引导实现时间一致性的人像编辑
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人像编辑 时间一致性 扩散模型 运动轨迹 3D高斯溅射
📋 核心要点
- 现有图像编辑方法在处理视频人像时,由于独立编辑每一帧,导致时间一致性较差,尤其在面部表情变化剧烈的场景。
- FYM框架通过学习运动轨迹变化,并将其融入扩散模型,使编辑后的头像继承原始视频的运动信息,从而保证时间一致性。
- 实验表明,FYM在时间一致性方面优于现有方法,并能优化文本驱动编辑等应用中时间不一致的输出结果。
📝 摘要(中文)
预训练的条件扩散模型在图像编辑方面展现了巨大的潜力。然而,它们在时间一致性方面面临挑战,尤其是在说话人头部领域,面部表情的连续变化加剧了难度。这些问题源于对单个图像的独立编辑,以及编辑过程中时间连续性的固有损失。本文介绍了一种通用框架Follow Your Motion (FYM),用于保持人像编辑中的时间一致性。具体来说,给定由预训练的3D高斯溅射模型渲染的人像图像,我们首先开发一个扩散模型,该模型直观且固有地学习从第一帧到每个后续帧的不同尺度和像素坐标处的运动轨迹变化。这种方法确保了时间上不一致的编辑头像继承了渲染头像的运动信息。其次,为了保持说话人头部编辑中细粒度的表情时间一致性,我们提出了一种动态重加权注意力机制。该机制为空间中的地标点分配更高的权重系数,并根据地标损失动态更新这些权重,从而实现更一致和精细的面部表情。大量的实验表明,我们的方法在时间一致性方面优于现有方法,并且可以用于优化和补偿文本驱动编辑、重新照明和各种其他应用中时间上不一致的输出。
🔬 方法详解
问题定义:论文旨在解决人像视频编辑中时间一致性问题。现有方法通常独立编辑每一帧图像,忽略了视频帧之间的时间相关性,导致编辑后的视频出现抖动、表情不连贯等问题,尤其是在说话人头部视频中,面部表情的细微变化更容易暴露时间不一致性。
核心思路:论文的核心思路是利用运动轨迹作为时间一致性的先验信息。通过学习原始视频中人像的运动轨迹,并将这些轨迹信息融入到图像编辑过程中,引导编辑后的图像保持与原始视频相似的运动模式,从而实现时间一致性。这样设计的目的是为了让编辑过程不再是孤立地处理每一帧,而是考虑到帧与帧之间的联系。
技术框架:FYM框架主要包含两个关键模块:1) 基于扩散模型的运动轨迹学习模块:该模块利用预训练的3D高斯溅射模型渲染人像图像,并训练一个扩散模型来学习从第一帧到后续帧的运动轨迹变化。2) 动态重加权注意力机制:该机制用于保持说话人头部编辑中细粒度的表情时间一致性,通过动态调整地标点的权重,优化面部表情的连贯性。整体流程是:首先使用3D高斯溅射模型渲染人像视频,然后利用运动轨迹学习模块和动态重加权注意力机制进行编辑,最后生成时间一致性的人像视频。
关键创新:论文的关键创新在于将运动轨迹学习与扩散模型相结合,并提出了动态重加权注意力机制。与现有方法相比,FYM不是简单地对每一帧图像进行独立编辑,而是通过学习和利用运动轨迹信息,实现了时间一致性的编辑。动态重加权注意力机制则进一步提升了面部表情的连贯性。
关键设计:在运动轨迹学习模块中,扩散模型被设计用来学习不同尺度和像素坐标下的运动轨迹变化。动态重加权注意力机制根据地标损失动态更新权重,损失函数的设计旨在惩罚时间不一致的编辑结果,鼓励模型生成更连贯的视频。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FYM在时间一致性方面显著优于现有方法。通过定量评估和定性比较,证明了FYM能够有效减少编辑后视频的抖动和不连贯现象。例如,在说话人头部编辑任务中,FYM能够生成更自然、更连贯的面部表情,提升用户观看体验。
🎯 应用场景
FYM框架可广泛应用于人像视频编辑、虚拟形象生成、视频会议美化等领域。例如,可以用于生成具有时间一致性的虚拟主播形象,或者在视频会议中实时美化用户的面部表情,提升用户体验。此外,该方法还可以应用于电影特效制作、游戏角色动画等领域,具有重要的实际应用价值和广阔的市场前景。
📄 摘要(原文)
Pre-trained conditional diffusion models have demonstrated remarkable potential in image editing. However, they often face challenges with temporal consistency, particularly in the talking head domain, where continuous changes in facial expressions intensify the level of difficulty. These issues stem from the independent editing of individual images and the inherent loss of temporal continuity during the editing process. In this paper, we introduce Follow Your Motion (FYM), a generic framework for maintaining temporal consistency in portrait editing. Specifically, given portrait images rendered by a pre-trained 3D Gaussian Splatting model, we first develop a diffusion model that intuitively and inherently learns motion trajectory changes at different scales and pixel coordinates, from the first frame to each subsequent frame. This approach ensures that temporally inconsistent edited avatars inherit the motion information from the rendered avatars. Secondly, to maintain fine-grained expression temporal consistency in talking head editing, we propose a dynamic re-weighted attention mechanism. This mechanism assigns higher weight coefficients to landmark points in space and dynamically updates these weights based on landmark loss, achieving more consistent and refined facial expressions. Extensive experiments demonstrate that our method outperforms existing approaches in terms of temporal consistency and can be used to optimize and compensate for temporally inconsistent outputs in a range of applications, such as text-driven editing, relighting, and various other applications.