FluentLip: A Phonemes-Based Two-stage Approach for Audio-Driven Lip Synthesis with Optical Flow Consistency
作者: Shiyan Liu, Rui Qu, Yan Jin
分类: cs.CV, cs.AI, cs.HC
发布日期: 2025-04-06
💡 一句话要点
FluentLip提出基于音素的两阶段唇语合成方法,提升流畅度和可懂性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 唇语合成 音频驱动 音素信息 光流一致性 生成对抗网络 多模态融合 视频流畅性
📋 核心要点
- 现有音频驱动唇语合成方法在同步性和视觉质量上有所进展,但在唇语可懂性和视频流畅性方面仍面临挑战。
- FluentLip通过融合音素信息、光流一致性损失和扩散链GAN训练,提升唇语合成的流畅性、自然度和可懂性。
- 实验结果表明,FluentLip在FID和PER指标上显著优于现有方法,分别提升约16.3%和35.2%。
📝 摘要(中文)
本文提出了一种名为FluentLip的两阶段唇语合成方法,旨在解决音频驱动的唇语合成中唇部运动与语音同步、视觉质量、唇语可懂性和视频流畅性等挑战。该方法融合了三个关键策略:首先,集成了音素提取器和编码器,生成音频和音素信息的融合,用于多模态学习,从而提高唇部同步性和可懂性。其次,采用光流一致性损失,确保图像帧之间的自然过渡。此外,在生成对抗网络(GANs)的训练过程中,引入扩散链,以提高稳定性和效率。通过与五个最先进方法在五个指标上进行广泛的实验比较,包括提出的音素错误率(PER)指标,用于评估唇部姿势的可懂性和视频流畅性,实验结果表明FluentLip具有很强的竞争力,在流畅性和自然度方面取得了显著的改进。尤其是在Fréchet Inception Distance(FID)和PER方面,分别优于现有方法约16.3%和35.2%。
🔬 方法详解
问题定义:音频驱动的唇语合成旨在根据给定的语音生成相应的唇部运动视频。现有方法通常难以保证唇语的清晰可懂,以及视频帧之间的自然流畅过渡,导致合成的唇语视频在视觉效果和实用性上都存在不足。现有方法的痛点在于对语音信息的利用不够充分,以及缺乏对视频帧间一致性的有效约束。
核心思路:FluentLip的核心思路是通过引入音素信息来增强语音特征的表达能力,利用光流一致性损失来保证视频帧之间的平滑过渡,并结合扩散链来稳定GAN的训练过程。这种多管齐下的方法旨在同时提升唇语的可懂性、流畅性和自然度。
技术框架:FluentLip采用两阶段的架构。第一阶段,使用音素提取器和编码器,将音频和音素信息融合,形成多模态特征表示。第二阶段,利用GAN生成唇部图像,并使用光流一致性损失来约束相邻帧之间的运动。在GAN的训练过程中,引入扩散链以提高训练的稳定性和效率。整体流程是从音频输入到音素提取,再到多模态特征融合,最后通过GAN生成连续的唇部图像。
关键创新:FluentLip的关键创新在于以下三点:1) 融合音素信息,增强了语音特征的表达能力,提高了唇语的可懂性。2) 引入光流一致性损失,保证了视频帧之间的平滑过渡,提升了视频的流畅性。3) 在GAN的训练过程中引入扩散链,提高了训练的稳定性和效率。与现有方法相比,FluentLip更注重对语音信息的细粒度利用和对视频帧间一致性的约束。
关键设计:音素提取器和编码器的具体结构未知,但其目的是提取语音中的音素信息并将其与音频特征融合。光流一致性损失的具体形式未知,但其作用是约束相邻帧之间的光流变化,使其更加平滑。扩散链的具体实现方式未知,但其目的是在GAN的训练过程中引入噪声,从而提高训练的稳定性和效率。GAN的具体网络结构未知,但其作用是根据多模态特征生成唇部图像。
🖼️ 关键图片
📊 实验亮点
FluentLip在唇语合成任务中取得了显著的性能提升。实验结果表明,FluentLip在Fréchet Inception Distance (FID) 指标上优于现有方法约16.3%,表明生成的唇部图像质量更高。更重要的是,在提出的音素错误率 (PER) 指标上,FluentLip优于现有方法约35.2%,表明合成的唇语在可懂性方面有了显著提升。这些数据表明FluentLip在流畅性和自然度方面都具有优势。
🎯 应用场景
FluentLip技术可应用于虚拟助手、在线教育、视频会议等领域,提升人机交互的自然性和真实感。该技术还有助于改善听力障碍人士的沟通体验,例如通过唇语识别辅助理解语音内容。未来,该技术有望在数字人、游戏角色等领域得到更广泛的应用。
📄 摘要(原文)
Generating consecutive images of lip movements that align with a given speech in audio-driven lip synthesis is a challenging task. While previous studies have made strides in synchronization and visual quality, lip intelligibility and video fluency remain persistent challenges. This work proposes FluentLip, a two-stage approach for audio-driven lip synthesis, incorporating three featured strategies. To improve lip synchronization and intelligibility, we integrate a phoneme extractor and encoder to generate a fusion of audio and phoneme information for multimodal learning. Additionally, we employ optical flow consistency loss to ensure natural transitions between image frames. Furthermore, we incorporate a diffusion chain during the training of Generative Adversarial Networks (GANs) to improve both stability and efficiency. We evaluate our proposed FluentLip through extensive experiments, comparing it with five state-of-the-art (SOTA) approaches across five metrics, including a proposed metric called Phoneme Error Rate (PER) that evaluates lip pose intelligibility and video fluency. The experimental results demonstrate that our FluentLip approach is highly competitive, achieving significant improvements in smoothness and naturalness. In particular, it outperforms these SOTA approaches by approximately $\textbf{16.3%}$ in Fréchet Inception Distance (FID) and $\textbf{35.2%}$ in PER.