Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction

📄 arXiv: 2412.18748v2 📥 PDF

作者: Yuan Zhao, Rui Liu, Gaoxiang Cong

分类: cs.MM, cs.CL, cs.SD, eess.AS

发布日期: 2024-12-25 (更新: 2024-12-31)

备注: Accepted by ICASSP 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出M2CI-Dubber,通过多尺度多模态上下文交互增强视频配音表现力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动视频配音 多模态融合 上下文建模 注意力机制 图注意力网络 韵律表现力 语音合成

📋 核心要点

  1. 现有自动视频配音方法忽略了上下文中多尺度韵律属性对当前句子的影响,以及上下文韵律线索与当前句子的交互作用。
  2. M2CI-Dubber通过共享的M2CI编码器建模多尺度多模态上下文,并利用注意力机制和图注意力网络促进上下文与当前句子的深度交互。
  3. 在Chem数据集上的实验表明,M2CI-Dubber在配音表现力方面优于现有基线模型,验证了所提出方法的有效性。

📝 摘要(中文)

自动视频配音(AVD)旨在根据文本脚本生成与唇部动作和面部表情同步的语音。现有研究侧重于建模多模态上下文以增强韵律表现力,但忽略了两个关键问题:1) 上下文中多尺度韵律表达属性会影响当前句子的韵律;2) 上下文中的韵律线索与当前句子相互作用,影响最终的韵律表现力。为了解决这些挑战,我们提出了M2CI-Dubber,一种用于AVD的多尺度多模态上下文交互方案。该方案包括两个共享的M2CI编码器,用于建模多尺度多模态上下文,并促进其与当前句子的深度交互。通过提取上下文中每个模态的全局和局部特征,利用基于注意力的机制进行聚合和交互,并采用基于交互的图注意力网络进行融合,该方法增强了当前句子合成语音的韵律表现力。在Chem数据集上的实验表明,我们的模型在配音表现力方面优于基线模型。代码和演示可在https://github.com/AI-S2-Lab/M2CI-Dubber 获取。

🔬 方法详解

问题定义:论文旨在解决自动视频配音(AVD)中韵律表现力不足的问题。现有方法虽然尝试建模多模态上下文,但未能充分考虑上下文中多尺度韵律属性的影响,以及上下文韵律线索与当前句子之间的复杂交互作用,导致合成语音缺乏自然性和表现力。

核心思路:论文的核心思路是通过多尺度多模态上下文交互来增强韵律表现力。具体而言,模型提取上下文中每个模态的全局和局部特征,并利用注意力机制学习不同尺度特征的重要性。此外,模型还通过图注意力网络建模上下文与当前句子之间的交互关系,从而更准确地预测当前句子的韵律。

技术框架:M2CI-Dubber的整体框架包含以下几个主要模块:1) 多模态特征提取模块,用于提取视频和文本的特征;2) 共享的M2CI编码器,用于建模多尺度多模态上下文;3) 注意力机制,用于聚合不同尺度的特征;4) 图注意力网络,用于建模上下文与当前句子之间的交互关系;5) 语音合成模块,用于生成最终的语音。

关键创新:该论文的关键创新在于提出了M2CI(Multiscale Multimodal Context Interaction)编码器,该编码器能够有效地建模多尺度多模态上下文,并促进上下文与当前句子之间的深度交互。与现有方法相比,M2CI-Dubber更全面地考虑了上下文信息,从而能够生成更具表现力的语音。

关键设计:M2CI编码器采用共享权重的设计,以减少模型参数量。注意力机制采用多头注意力,以捕捉不同角度的特征关系。图注意力网络采用多层结构,以建模更复杂的交互关系。损失函数包括语音重建损失、韵律损失和对抗损失,以提高合成语音的质量和表现力。具体参数设置未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,M2CI-Dubber在Chem数据集上显著提升了配音的表现力。具体性能数据未知,但论文强调其模型优于基线模型,证明了多尺度多模态上下文交互对于提升自动视频配音效果的有效性。实验结果表明,所提出的方法能够生成更自然、更富有表现力的语音。

🎯 应用场景

该研究成果可应用于影视后期制作、游戏开发、虚拟主播等领域,能够自动生成与视频内容匹配且富有表现力的配音,降低人工成本,提高制作效率。未来,该技术有望进一步拓展到跨语种配音、个性化配音等更广泛的应用场景。

📄 摘要(原文)

Automatic Video Dubbing (AVD) generates speech aligned with lip motion and facial emotion from scripts. Recent research focuses on modeling multimodal context to enhance prosody expressiveness but overlooks two key issues: 1) Multiscale prosody expression attributes in the context influence the current sentence's prosody. 2) Prosody cues in context interact with the current sentence, impacting the final prosody expressiveness. To tackle these challenges, we propose M2CI-Dubber, a Multiscale Multimodal Context Interaction scheme for AVD. This scheme includes two shared M2CI encoders to model the multiscale multimodal context and facilitate its deep interaction with the current sentence. By extracting global and local features for each modality in the context, utilizing attention-based mechanisms for aggregation and interaction, and employing an interaction-based graph attention network for fusion, the proposed approach enhances the prosody expressiveness of synthesized speech for the current sentence. Experiments on the Chem dataset show our model outperforms baselines in dubbing expressiveness. The code and demos are available at \textcolor[rgb]{0.93,0.0,0.47}{https://github.com/AI-S2-Lab/M2CI-Dubber}.