The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition

📄 arXiv: 2505.13971v2 📥 PDF

作者: Ming Gao, Shilong Wu, Hang Chen, Jun Du, Chin-Hui Lee, Shinji Watanabe, Jingdong Chen, Siniscalchi Sabato Marco, Odette Scharenborg

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-05-20 (更新: 2025-05-27)

备注: Accepted by Interspeech 2025. Camera-ready version


💡 一句话要点

MISP 2025挑战赛:提出基于多模态信息的会议场景音视频说话人分离与识别方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 音视频处理 说话人分离 语音识别 会议场景 深度学习 人脸识别

📋 核心要点

  1. 会议场景因复杂的声学环境对语音应用构成挑战,现有方法难以有效处理多模态信息。
  2. 该挑战赛鼓励利用视频模态增强音频处理,旨在提升会议场景下说话人分离和语音识别的性能。
  3. 实验结果表明,最佳系统在说话人分离、语音识别和联合任务上均显著优于基线系统,展现了多模态融合的潜力。

📝 摘要(中文)

本文总结了在Interspeech 2025上举办的MISP 2025挑战赛的成果,该挑战赛侧重于通过结合视频模态和音频模态实现多模态、多设备的会议转录。任务包括音视频说话人分离(AVSD)、音视频语音识别(AVSR)以及音视频分离与识别(AVDR)。本文介绍了挑战赛的目标、任务、数据集、基线系统以及参赛者提出的解决方案。最佳系统在基线上取得了显著改进:最佳AVSD模型的说话人分离错误率(DER)为8.09%,提高了7.43%;最佳AVSR系统的字错误率(CER)为9.48%,提高了10.62%;最佳AVDR系统的连接最小排列字错误率(cpCER)为11.56%,提高了72.49%。

🔬 方法详解

问题定义:论文旨在解决会议场景下,复杂声学环境和多设备录制带来的说话人分离和语音识别难题。现有方法在处理此类场景时,往往难以有效利用视频信息,导致性能受限。尤其是在说话人重叠、背景噪声大等情况下,仅依赖音频信息难以达到理想效果。

核心思路:论文的核心思路是融合音频和视频模态的信息,利用视频中的人脸信息辅助说话人分离和语音识别。通过提取视频中的人脸特征,可以更准确地判断说话人的身份和位置,从而提高说话人分离的准确率。同时,视频信息也可以帮助抑制噪声,提升语音识别的鲁棒性。

技术框架:整体框架包含三个主要任务:音视频说话人分离(AVSD)、音视频语音识别(AVSR)和音视频分离与识别(AVDR)。每个任务都包含数据预处理、特征提取、模型训练和后处理等阶段。AVSD任务通常采用基于深度学习的聚类或分类方法,AVSR任务则采用端到端的语音识别模型,AVDR任务则将AVSD和AVSR的结果进行联合优化。

关键创新:该挑战赛的关键创新在于鼓励参赛者探索多模态融合的方法,特别是如何有效地利用视频信息来提升音频处理的性能。与传统的仅依赖音频的方法相比,多模态融合能够提供更丰富的信息,从而提高系统的鲁棒性和准确性。此外,AVDR任务的提出也鼓励了对说话人分离和语音识别的联合优化,从而进一步提升整体性能。

关键设计:具体的模型设计和参数设置取决于参赛者。常见的技术细节包括:使用预训练的人脸识别模型提取人脸特征,使用注意力机制融合音频和视频特征,设计特定的损失函数来优化说话人分离和语音识别的性能,以及采用数据增强技术来提高模型的泛化能力。此外,后处理技术,如语音活动检测和说话人角色分配,也对最终结果有重要影响。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

挑战赛结果显示,最佳AVSD模型的DER降低至8.09%,相比基线系统提升了7.43%;最佳AVSR系统的CER降低至9.48%,提升了10.62%;最佳AVDR系统的cpCER降低至11.56%,提升幅度高达72.49%。这些数据表明,多模态融合在会议场景下的语音处理中具有显著优势。

🎯 应用场景

该研究成果可广泛应用于智能会议系统、远程协作平台、视频监控、语音助手等领域。通过提升会议场景下的语音处理能力,可以提高会议效率、改善用户体验。未来,该技术有望应用于更复杂的场景,如智能家居、自动驾驶等,实现更智能、更便捷的人机交互。

📄 摘要(原文)

Meetings are a valuable yet challenging scenario for speech applications due to complex acoustic conditions. This paper summarizes the outcomes of the MISP 2025 Challenge, hosted at Interspeech 2025, which focuses on multi-modal, multi-device meeting transcription by incorporating video modality alongside audio. The tasks include Audio-Visual Speaker Diarization (AVSD), Audio-Visual Speech Recognition (AVSR), and Audio-Visual Diarization and Recognition (AVDR). We present the challenge's objectives, tasks, dataset, baseline systems, and solutions proposed by participants. The best-performing systems achieved significant improvements over the baseline: the top AVSD model achieved a Diarization Error Rate (DER) of 8.09%, improving by 7.43%; the top AVSR system achieved a Character Error Rate (CER) of 9.48%, improving by 10.62%; and the best AVDR system achieved a concatenated minimum-permutation Character Error Rate (cpCER) of 11.56%, improving by 72.49%.