DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization
作者: Ngoc-Son Nguyen, Thanh V. T. Tran, Jeongsoo Choi, Hieu-Nghia Huynh-Nguyen, Truong-Son Hy, Van Nguyen
分类: cs.CV, cs.AI, cs.MM, cs.SD
发布日期: 2026-04-06
💡 一句话要点
提出DiFlowDubber,通过离散流匹配实现跨模态对齐和同步的自动视频配音。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频配音 离散流匹配 跨模态对齐 唇部同步 文本到语音 韵律建模 时间自适应
📋 核心要点
- 现有视频配音方法在内容准确性、韵律表达、音质和唇部同步方面存在不足。
- DiFlowDubber利用离散流匹配,通过两阶段训练策略实现高质量的自动视频配音。
- 实验结果表明,DiFlowDubber在多个评估指标上优于现有方法,提升了配音效果。
📝 摘要(中文)
视频配音需要内容准确性、富有表现力的韵律、高质量的音响效果和精确的唇部同步,但现有方法在这四个方面都存在不足。为了解决这些问题,我们提出了DiFlowDubber,这是第一个基于离散流匹配骨干的视频配音框架,并采用了一种新颖的两阶段训练策略。在第一阶段,一个零样本文本到语音(TTS)系统在大规模语料库上进行预训练,其中确定性架构捕获语言结构,而基于离散流的韵律-声学(DFPA)模块对富有表现力的韵律和逼真的声学特征进行建模。在第二阶段,我们提出了内容一致的时间自适应(CCTA)来将TTS知识转移到配音领域:其同步器强制执行跨模态对齐以实现唇部同步语音。作为补充,面部到韵律映射器(FaPro)将韵律建立在面部表情的基础上,其输出与同步器的输出融合,以构建丰富的、细粒度的多模态嵌入,这些嵌入捕获韵律-内容相关性,从而指导DFPA生成富有表现力的韵律和声学标记,以实现内容一致的语音。在两个基准数据集上的实验表明,DiFlowDubber在多个评估指标上优于现有方法。
🔬 方法详解
问题定义:论文旨在解决自动视频配音中内容准确性、韵律表达、音质和唇部同步难以兼顾的问题。现有方法通常难以同时保证这四个方面的质量,导致配音效果不佳。
核心思路:论文的核心思路是利用离散流匹配(Discrete Flow Matching)技术,构建一个能够学习并生成高质量、唇音同步的配音的框架。通过跨模态对齐和时间自适应,将预训练的文本到语音(TTS)模型的知识迁移到视频配音领域。
技术框架:DiFlowDubber框架包含两个主要阶段:1) 零样本TTS预训练阶段:使用大规模语料库训练一个TTS系统,其中DFPA模块负责建模韵律和声学特征。2) 内容一致的时间自适应(CCTA)阶段:将TTS知识迁移到配音领域,包含同步器(Synchronizer)和面部到韵律映射器(FaPro)。同步器用于强制跨模态对齐,实现唇部同步;FaPro则根据面部表情调整韵律,并与同步器的输出融合,生成多模态嵌入。
关键创新:该论文的关键创新在于:1) 提出了基于离散流匹配的视频配音框架DiFlowDubber。2) 提出了内容一致的时间自适应(CCTA)方法,能够有效地将TTS知识迁移到配音领域,并实现唇部同步。3) 引入了面部到韵律映射器(FaPro),利用面部表情信息来改善韵律的表达。
关键设计:在预训练阶段,DFPA模块的设计至关重要,它需要能够捕捉到富有表现力的韵律和逼真的声学特征。在CCTA阶段,同步器的损失函数需要能够有效地衡量跨模态对齐的程度。FaPro的设计需要能够准确地将面部表情映射到韵律参数。具体参数设置和网络结构在论文中有详细描述,此处未知。
🖼️ 关键图片
📊 实验亮点
DiFlowDubber在两个基准数据集上进行了实验,结果表明,该方法在内容准确性、韵律表达、音质和唇部同步等多个评估指标上均优于现有方法。具体的性能数据和提升幅度在论文中有详细展示,此处未知。
🎯 应用场景
该研究成果可应用于电影、电视剧、游戏等领域的自动配音,降低配音成本,提高配音效率。此外,该技术还可用于辅助残疾人进行语音交流,具有重要的社会价值。未来,该技术有望进一步发展,实现更加自然、流畅的自动配音效果。
📄 摘要(原文)
Video dubbing requires content accuracy, expressive prosody, high-quality acoustics, and precise lip synchronization, yet existing approaches struggle on all four fronts. To address these issues, we propose DiFlowDubber, the first video dubbing framework built upon a discrete flow matching backbone with a novel two-stage training strategy. In the first stage, a zero-shot text-to-speech (TTS) system is pre-trained on large-scale corpora, where a deterministic architecture captures linguistic structures, and the Discrete Flow-based Prosody-Acoustic (DFPA) module models expressive prosody and realistic acoustic characteristics. In the second stage, we propose the Content-Consistent Temporal Adaptation (CCTA) to transfer TTS knowledge to the dubbing domain: its Synchronizer enforces cross-modal alignment for lip-synchronized speech. Complementarily, the Face-to-Prosody Mapper (FaPro) conditions prosody on facial expressions, whose outputs are then fused with those of the Synchronizer to construct rich, fine-grained multimodal embeddings that capture prosody-content correlations, guiding the DFPA to generate expressive prosody and acoustic tokens for content-consistent speech. Experiments on two benchmark datasets demonstrate that DiFlowDubber outperforms prior methods across multiple evaluation metrics.