DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

作者: Ngoc-Son Nguyen, Thanh V. T. Tran, Jeongsoo Choi, Hieu-Nghia Huynh-Nguyen, Truong-Son Hy, Van Nguyen

分类: cs.CV, cs.AI, cs.MM, cs.SD

发布日期: 2026-04-06

💡 一句话要点

提出DiFlowDubber，通过离散流匹配实现跨模态对齐和同步的自动视频配音。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频配音 离散流匹配 跨模态对齐 唇部同步 文本到语音 韵律建模 时间自适应

📋 核心要点

现有视频配音方法在内容准确性、韵律表达、音质和唇部同步方面存在不足。
DiFlowDubber利用离散流匹配，通过两阶段训练策略实现高质量的自动视频配音。
实验结果表明，DiFlowDubber在多个评估指标上优于现有方法，提升了配音效果。

📝 摘要（中文）

视频配音需要内容准确性、富有表现力的韵律、高质量的音响效果和精确的唇部同步，但现有方法在这四个方面都存在不足。为了解决这些问题，我们提出了DiFlowDubber，这是第一个基于离散流匹配骨干的视频配音框架，并采用了一种新颖的两阶段训练策略。在第一阶段，一个零样本文本到语音（TTS）系统在大规模语料库上进行预训练，其中确定性架构捕获语言结构，而基于离散流的韵律-声学（DFPA）模块对富有表现力的韵律和逼真的声学特征进行建模。在第二阶段，我们提出了内容一致的时间自适应（CCTA）来将TTS知识转移到配音领域：其同步器强制执行跨模态对齐以实现唇部同步语音。作为补充，面部到韵律映射器（FaPro）将韵律建立在面部表情的基础上，其输出与同步器的输出融合，以构建丰富的、细粒度的多模态嵌入，这些嵌入捕获韵律-内容相关性，从而指导DFPA生成富有表现力的韵律和声学标记，以实现内容一致的语音。在两个基准数据集上的实验表明，DiFlowDubber在多个评估指标上优于现有方法。

🔬 方法详解

问题定义：论文旨在解决自动视频配音中内容准确性、韵律表达、音质和唇部同步难以兼顾的问题。现有方法通常难以同时保证这四个方面的质量，导致配音效果不佳。

核心思路：论文的核心思路是利用离散流匹配（Discrete Flow Matching）技术，构建一个能够学习并生成高质量、唇音同步的配音的框架。通过跨模态对齐和时间自适应，将预训练的文本到语音（TTS）模型的知识迁移到视频配音领域。

技术框架：DiFlowDubber框架包含两个主要阶段：1) 零样本TTS预训练阶段：使用大规模语料库训练一个TTS系统，其中DFPA模块负责建模韵律和声学特征。2) 内容一致的时间自适应（CCTA）阶段：将TTS知识迁移到配音领域，包含同步器（Synchronizer）和面部到韵律映射器（FaPro）。同步器用于强制跨模态对齐，实现唇部同步；FaPro则根据面部表情调整韵律，并与同步器的输出融合，生成多模态嵌入。

关键创新：该论文的关键创新在于：1) 提出了基于离散流匹配的视频配音框架DiFlowDubber。2) 提出了内容一致的时间自适应（CCTA）方法，能够有效地将TTS知识迁移到配音领域，并实现唇部同步。3) 引入了面部到韵律映射器（FaPro），利用面部表情信息来改善韵律的表达。

关键设计：在预训练阶段，DFPA模块的设计至关重要，它需要能够捕捉到富有表现力的韵律和逼真的声学特征。在CCTA阶段，同步器的损失函数需要能够有效地衡量跨模态对齐的程度。FaPro的设计需要能够准确地将面部表情映射到韵律参数。具体参数设置和网络结构在论文中有详细描述，此处未知。

🖼️ 关键图片

📊 实验亮点

DiFlowDubber在两个基准数据集上进行了实验，结果表明，该方法在内容准确性、韵律表达、音质和唇部同步等多个评估指标上均优于现有方法。具体的性能数据和提升幅度在论文中有详细展示，此处未知。

🎯 应用场景

该研究成果可应用于电影、电视剧、游戏等领域的自动配音，降低配音成本，提高配音效率。此外，该技术还可用于辅助残疾人进行语音交流，具有重要的社会价值。未来，该技术有望进一步发展，实现更加自然、流畅的自动配音效果。

📄 摘要（原文）

Video dubbing requires content accuracy, expressive prosody, high-quality acoustics, and precise lip synchronization, yet existing approaches struggle on all four fronts. To address these issues, we propose DiFlowDubber, the first video dubbing framework built upon a discrete flow matching backbone with a novel two-stage training strategy. In the first stage, a zero-shot text-to-speech (TTS) system is pre-trained on large-scale corpora, where a deterministic architecture captures linguistic structures, and the Discrete Flow-based Prosody-Acoustic (DFPA) module models expressive prosody and realistic acoustic characteristics. In the second stage, we propose the Content-Consistent Temporal Adaptation (CCTA) to transfer TTS knowledge to the dubbing domain: its Synchronizer enforces cross-modal alignment for lip-synchronized speech. Complementarily, the Face-to-Prosody Mapper (FaPro) conditions prosody on facial expressions, whose outputs are then fused with those of the Synchronizer to construct rich, fine-grained multimodal embeddings that capture prosody-content correlations, guiding the DFPA to generate expressive prosody and acoustic tokens for content-consistent speech. Experiments on two benchmark datasets demonstrate that DiFlowDubber outperforms prior methods across multiple evaluation metrics.

DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理