MCDubber: Multimodal Context-Aware Expressive Video Dubbing
作者: Yuan Zhao, Zhenqi Jia, Rui Liu, De Hu, Feilong Bao, Guanglai Gao
分类: cs.MM, cs.CV, cs.SD, eess.AS
发布日期: 2024-08-21 (更新: 2024-09-04)
备注: Accepted by NCMMSC2024
🔗 代码/项目: GITHUB
💡 一句话要点
MCDubber:提出多模态上下文感知的视频配音模型,提升配音表现力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动视频配音 多模态融合 上下文感知 语音合成 韵律建模
📋 核心要点
- 现有AVD模型忽略了配音韵律与多模态上下文的对齐问题,导致全局韵律不一致。
- MCDubber将建模对象扩展到包含上下文信息的序列,从而保证全局上下文韵律的一致性。
- 实验表明,MCDubber在Chem数据集上显著提升了配音的表现力,优于现有先进方法。
📝 摘要(中文)
自动视频配音(AVD)旨在根据给定的脚本生成与唇部动作和韵律表现力对齐的语音。目前的AVD模型主要利用当前句子的视觉信息来增强合成语音的韵律。然而,至关重要的是要考虑生成的配音的韵律是否与多模态上下文对齐,因为配音将与原始上下文结合在最终视频中。之前的研究忽略了这一方面。为了解决这个问题,我们提出了一个多模态上下文感知的视频配音模型,称为MCDubber,将建模对象从单个句子转换为具有上下文信息的更长序列,以确保全局上下文韵律的一致性。MCDubber包含三个主要组成部分:(1)上下文时长对齐器,旨在学习文本和唇部帧之间的上下文感知对齐;(2)上下文韵律预测器,旨在读取全局上下文视觉序列并预测上下文感知的全局能量和音高;(3)上下文声学解码器,最终在目标句子相邻的真实梅尔频谱图的帮助下预测全局上下文梅尔频谱图。通过这个过程,MCDubber在配音时充分考虑了多模态上下文对当前句子韵律表现力的影响。从输出上下文梅尔频谱图中提取的属于目标句子的梅尔频谱图是最终需要的配音音频。在Chem基准数据集上的大量实验表明,与所有先进的基线相比,我们的MCDubber显着提高了配音表现力。代码和演示可在https://github.com/XiaoYuanJun-zy/MCDubber获得。
🔬 方法详解
问题定义:自动视频配音(AVD)旨在生成与视频内容匹配的语音。现有方法主要关注当前句子的视觉信息,忽略了配音与前后文的连贯性,导致配音的韵律与整体视频不协调。这种不协调降低了用户体验,使得配音听起来不自然。
核心思路:MCDubber的核心思路是将配音建模从单个句子扩展到包含上下文信息的序列。通过考虑前后文的视觉和听觉信息,模型可以更好地预测当前句子的韵律,从而保证配音的全局一致性。这种方法模拟了人类配音员在实际工作中的思考方式,即不仅关注当前句子的内容,还要考虑整个视频的语境。
技术框架:MCDubber包含三个主要模块:上下文时长对齐器、上下文韵律预测器和上下文声学解码器。首先,上下文时长对齐器学习文本和唇部动作之间的上下文感知对齐。然后,上下文韵律预测器读取全局上下文视觉序列,预测上下文感知的全局能量和音高。最后,上下文声学解码器在目标句子相邻的真实梅尔频谱图的辅助下,预测全局上下文梅尔频谱图。最终,从输出的上下文梅尔频谱图中提取目标句子的梅尔频谱图作为最终的配音音频。
关键创新:MCDubber的关键创新在于引入了多模态上下文感知机制。与以往只关注当前句子视觉信息的方法不同,MCDubber同时考虑了前后文的视觉和听觉信息,从而更好地预测当前句子的韵律。这种方法更符合人类的配音习惯,能够生成更自然、更流畅的配音。
关键设计:上下文时长对齐器可能使用了Transformer或类似的注意力机制来学习文本和唇部动作之间的对齐关系。上下文韵律预测器可能使用了循环神经网络(RNN)或Transformer来建模全局上下文视觉序列,并预测全局能量和音高。上下文声学解码器可能使用了自回归模型,例如Tacotron或FastSpeech,来生成梅尔频谱图。损失函数可能包括梅尔频谱图重建损失、能量损失和音高损失。
🖼️ 关键图片
📊 实验亮点
MCDubber在Chem基准数据集上进行了实验,结果表明,与现有先进的基线方法相比,MCDubber显著提高了配音的表现力。具体提升幅度未知,但摘要中明确指出是“significantly improves dubbing expressiveness”,表明提升效果显著。实验结果验证了MCDubber在多模态上下文感知配音方面的有效性。
🎯 应用场景
MCDubber可应用于电影、电视剧、游戏等视频内容的自动配音,降低配音成本,提高配音效率。此外,该技术还可用于语音合成、语音克隆等领域,具有广泛的应用前景。未来,可以进一步研究如何将MCDubber应用于不同语言和文化背景下的视频配音,实现更智能、更个性化的配音服务。
📄 摘要(原文)
Automatic Video Dubbing (AVD) aims to take the given script and generate speech that aligns with lip motion and prosody expressiveness. Current AVD models mainly utilize visual information of the current sentence to enhance the prosody of synthesized speech. However, it is crucial to consider whether the prosody of the generated dubbing aligns with the multimodal context, as the dubbing will be combined with the original context in the final video. This aspect has been overlooked in previous studies. To address this issue, we propose a Multimodal Context-aware video Dubbing model, termed \textbf{MCDubber}, to convert the modeling object from a single sentence to a longer sequence with context information to ensure the consistency of the global context prosody. MCDubber comprises three main components: (1) A context duration aligner aims to learn the context-aware alignment between the text and lip frames; (2) A context prosody predictor seeks to read the global context visual sequence and predict the context-aware global energy and pitch; (3) A context acoustic decoder ultimately predicts the global context mel-spectrogram with the assistance of adjacent ground-truth mel-spectrograms of the target sentence. Through this process, MCDubber fully considers the influence of multimodal context on the prosody expressiveness of the current sentence when dubbing. The extracted mel-spectrogram belonging to the target sentence from the output context mel-spectrograms is the final required dubbing audio. Extensive experiments on the Chem benchmark dataset demonstrate that our MCDubber significantly improves dubbing expressiveness compared to all advanced baselines. The code and demos are available at https://github.com/XiaoYuanJun-zy/MCDubber.