FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing

📄 arXiv: 2505.01263v2 📥 PDF

作者: Gaoxiang Cong, Liang Li, Jiadong Pan, Zhedong Zhang, Amin Beheshti, Anton van den Hengel, Yuankai Qi, Qingming Huang

分类: cs.MM, cs.CV, cs.SD, eess.AS

发布日期: 2025-05-02 (更新: 2025-08-25)


💡 一句话要点

FlowDubber:利用LLM语义感知学习和Flow Matching语音增强的电影配音方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电影配音 大语言模型 语义感知学习 Flow Matching 语音增强 视听同步 唇形同步 Qwen2.5

📋 核心要点

  1. 现有电影配音方法侧重于降低单词错误率,忽略了唇形同步和音质,导致配音效果不佳。
  2. FlowDubber利用LLM学习上下文,通过语义感知学习和双重对比对齐提升视听同步,并用Flow Matching增强音质。
  3. 实验结果表明,FlowDubber在视听同步和音质方面均优于现有方法,显著提升了电影配音的质量。

📝 摘要(中文)

本文提出了一种基于大语言模型(LLM)的flow matching架构FlowDubber,用于电影配音,旨在实现高质量的视听同步和发音,同时保留参考音频的音色。现有方法主要关注降低单词错误率,而忽略了唇形同步和音质的重要性。FlowDubber以Qwen2.5作为LLM骨干,学习电影剧本和参考音频中的上下文序列。提出的语义感知学习侧重于在音素级别捕获LLM的语义知识。双重对比对齐(DCA)增强了与唇部运动的相互对齐,减少了相似音素可能混淆的歧义。基于Flow的语音增强(FVE)通过引入基于LLM的声学flow matching指导来增强清晰度,并使用仿射风格先验来增强身份,从而在通过梯度向量场预测将噪声恢复为梅尔频谱图时提高音质。大量实验表明,该方法在两个主要基准测试中优于几种最先进的方法。

🔬 方法详解

问题定义:电影配音旨在将剧本转化为与电影片段在时间、情感上对齐的语音,同时保留参考音频的音色。现有方法主要关注降低单词错误率,忽略了唇形同步和音质,导致配音效果不自然,缺乏表现力。

核心思路:FlowDubber的核心思路是利用大语言模型(LLM)理解电影剧本的语义信息,并结合语音增强技术,生成高质量、与电影画面同步的配音。通过语义感知学习和双重对比对齐,提升视听同步效果;通过基于Flow的语音增强,提升音质。

技术框架:FlowDubber的整体架构包含以下几个主要模块:1) 基于Qwen2.5的LLM:用于学习电影剧本和参考音频的上下文信息。2) 语义感知学习模块:在音素级别捕获LLM的语义知识。3) 双重对比对齐(DCA)模块:增强与唇部运动的相互对齐。4) 基于Flow的语音增强(FVE)模块:通过LLM指导的声学flow matching和仿射风格先验,提升音质。

关键创新:FlowDubber的关键创新在于:1) 提出了一种基于LLM的语义感知学习方法,能够更好地理解电影剧本的语义信息。2) 引入了双重对比对齐(DCA)机制,增强了视听同步效果。3) 提出了基于Flow的语音增强(FVE)方法,显著提升了配音的音质。

关键设计:在语义感知学习中,设计了特定的损失函数来引导LLM学习音素级别的语义信息。在双重对比对齐中,采用了对比学习的方法,分别在语音和视觉层面进行对齐。在基于Flow的语音增强中,利用LLM生成声学flow matching的指导信息,并使用仿射风格先验来增强语音的身份信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FlowDubber在两个主要基准测试中均优于现有最先进的方法。具体而言,FlowDubber在视听同步方面取得了显著提升,有效降低了唇形同步误差。同时,FlowDubber在音质方面也表现出色,生成的配音语音更加清晰、自然,具有更高的可懂性和表现力。

🎯 应用场景

FlowDubber具有广泛的应用前景,可用于电影、电视剧、动画等视频内容的自动配音,降低配音成本,提高制作效率。此外,该技术还可应用于游戏、虚拟现实等领域,为用户提供更加沉浸式的体验。未来,FlowDubber有望成为影视制作和娱乐产业的重要工具。

📄 摘要(原文)

Movie Dubbing aims to convert scripts into speeches that align with the given movie clip in both temporal and emotional aspects while preserving the vocal timbre of a given brief reference audio. Existing methods focus primarily on reducing the word error rate while ignoring the importance of lip-sync and acoustic quality. To address these issues, we propose a large language model (LLM) based flow matching architecture for dubbing, named FlowDubber, which achieves high-quality audio-visual sync and pronunciation by incorporating a large speech language model and dual contrastive aligning while achieving better acoustic quality via the proposed voice-enhanced flow matching than previous works. First, we introduce Qwen2.5 as the backbone of LLM to learn the in-context sequence from movie scripts and reference audio. Then, the proposed semantic-aware learning focuses on capturing LLM semantic knowledge at the phoneme level. Next, dual contrastive aligning (DCA) boosts mutual alignment with lip movement, reducing ambiguities where similar phonemes might be confused. Finally, the proposed Flow-based Voice Enhancing (FVE) improves acoustic quality in two aspects, which introduces an LLM-based acoustics flow matching guidance to strengthen clarity and uses affine style prior to enhance identity when recovering noise into mel-spectrograms via gradient vector field prediction. Extensive experiments demonstrate that our method outperforms several state-of-the-art methods on two primary benchmarks.