Learning Spatial-Temporal Coherent Correlations for Speech-Preserving Facial Expression Manipulation
作者: Tianshui Chen, Jianman Lin, Zhijing Yang, Chunmei Qing, Guangrun Wang, Liang Lin
分类: cs.CV
发布日期: 2026-04-22
💡 一句话要点
提出时空一致相关性学习算法,解决语音保持的面部表情操控问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 面部表情操控 语音保持 时空相关性 非配对学习 计算机视觉
📋 核心要点
- 现有语音保持面部表情操控方法依赖难以获取的配对数据,限制了其在实际场景中的应用。
- 论文提出时空一致相关性学习算法,利用不同情绪表达相同内容时面部动画的相关性进行监督。
- 该方法通过显式建模时空相关性,并自适应地关注更具挑战性的区域,提升表情操控效果。
📝 摘要(中文)
语音保持的面部表情操控(SPFEM)旨在修改面部表情,同时精确地保持与口语内容相关的嘴部动画。目前的方法依赖于难以获取的配对训练样本,即对于同一个人,两个对齐的帧具有相同的语音内容但面部表情不同,这限制了SPFEM在实际场景中的应用。本文发现,以不同情绪表达相同内容的说话者,在空间和时间维度上都表现出高度相关的局部面部动画,这为SPFEM提供了有价值的监督信息。为了利用这一发现,我们提出了一种新的时空一致相关性学习(STCCL)算法,该算法将上述相关性建模为显式度量,并整合这些度量来监督面部表情的操控,同时更好地保持口语内容的动画。为此,它首先学习一个空间一致相关性度量,确保图像内与特定情绪相关的相邻局部区域的视觉相关性,与和不同情绪相关的对应区域的视觉相关性非常相似。同时,它开发了一个时间一致相关性度量,确保与一种情绪相关的相邻图像帧中特定区域的视觉相关性,与和另一种情绪相关的帧中对应区域的相关性相似。考虑到视觉相关性在所有区域并非均匀分布,我们还设计了一种相关性感知自适应策略,优先考虑更具挑战性的区域。在SPFEM模型训练期间,我们将输入和输出图像帧的对应局部区域之间的时空一致相关性度量构建为额外的损失,以监督生成过程。
🔬 方法详解
问题定义:论文旨在解决语音保持的面部表情操控(SPFEM)问题,即在保持口语内容对应的嘴部动画不变的情况下,修改面部表情。现有方法的主要痛点在于需要大量的配对训练数据,这些数据要求同一个人在表达相同语音内容时具有不同的面部表情,这在实际应用中很难获得。
核心思路:论文的核心思路是利用不同情绪表达相同内容时,说话者在空间和时间维度上局部面部动画之间存在高度相关性这一现象。通过学习和建模这种相关性,可以为SPFEM提供有效的监督信号,从而避免对配对数据的依赖。
技术框架:STCCL算法主要包含两个核心模块:空间一致相关性学习和时间一致相关性学习。空间一致相关性学习旨在确保图像内相邻局部区域的视觉相关性在不同情绪之间保持一致。时间一致相关性学习则关注相邻帧之间对应区域的视觉相关性在不同情绪之间的相似性。此外,还设计了一个相关性感知自适应策略,用于优先关注更具挑战性的区域。在训练过程中,将计算得到的时空一致相关性作为额外的损失函数,用于监督生成模型的训练。
关键创新:该论文最重要的创新点在于提出了时空一致相关性学习(STCCL)算法,该算法能够显式地建模和利用不同情绪下局部面部动画之间的时空相关性。与现有方法依赖配对数据不同,该方法只需要非配对数据即可进行训练,大大降低了数据获取的难度。
关键设计:空间一致相关性度量和时间一致相关性度量是两个关键的设计。具体实现方式未知,但可以推测是利用卷积神经网络提取特征,然后计算特征之间的相似度或相关性。相关性感知自适应策略的具体实现方式也未知,但可以推测是根据区域相关性的强弱来调整损失函数的权重,使得模型更加关注相关性较弱的区域。
🖼️ 关键图片
📊 实验亮点
论文提出了时空一致相关性学习算法,无需配对数据即可实现语音保持的面部表情操控。虽然摘要中没有给出具体的性能数据和对比基线,但可以推断该方法在非配对数据上的表现优于或至少可媲美需要配对数据的现有方法,并且在表情操控的真实性和语音保持的准确性方面有所提升。
🎯 应用场景
该研究成果可应用于虚拟形象定制、情感化语音助手、电影特效制作等领域。例如,可以根据用户的语音内容,生成具有特定情感的面部表情,从而增强人机交互的真实感和趣味性。此外,该技术还可以用于修复或修改视频中的面部表情,提升视频质量。
📄 摘要(原文)
Speech-preserving facial expression manipulation (SPFEM) aims to modify facial emotions while meticulously maintaining the mouth animation associated with spoken content. Current works depend on inaccessible paired training samples for the person, where two aligned frames exhibit the same speech content yet differ in emotional expression, limiting the SPFEM applications in real-world scenarios. In this work, we discover that speakers who convey the same content with different emotions exhibit highly correlated local facial animations in both spatial and temporal spaces, providing valuable supervision for SPFEM. To capitalize on this insight, we propose a novel spatial-temporal coherent correlation learning (STCCL) algorithm, which models the aforementioned correlations as explicit metrics and integrates the metrics to supervise manipulating facial expression and meanwhile better preserving the facial animation of spoken content. To this end, it first learns a spatial coherent correlation metric, ensuring that the visual correlations of adjacent local regions within an image linked to a specific emotion closely resemble those of corresponding regions in an image linked to a different emotion. Simultaneously, it develops a temporal coherent correlation metric, ensuring that the visual correlations of specific regions across adjacent image frames associated with one emotion are similar to those in the corresponding regions of frames associated with another emotion. Recognizing that visual correlations are not uniform across all regions, we have also crafted a correlation-aware adaptive strategy that prioritizes regions that present greater challenges. During SPFEM model training, we construct the spatial-temporal coherent correlation metric between corresponding local regions of the input and output image frames as an additional loss to supervise the generation process.