The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition

作者: Ming Gao, Shilong Wu, Hang Chen, Jun Du, Chin-Hui Lee, Shinji Watanabe, Jingdong Chen, Siniscalchi Sabato Marco, Odette Scharenborg

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-05-20 (更新: 2025-05-27)

备注: Accepted by Interspeech 2025. Camera-ready version

💡 一句话要点

MISP 2025挑战赛：提出基于多模态信息的会议场景音视频说话人分离与识别方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 音视频处理 说话人分离 语音识别 会议场景 深度学习 人脸识别

📋 核心要点

会议场景因复杂的声学环境对语音应用构成挑战，现有方法难以有效处理多模态信息。
该挑战赛鼓励利用视频模态增强音频处理，旨在提升会议场景下说话人分离和语音识别的性能。
实验结果表明，最佳系统在说话人分离、语音识别和联合任务上均显著优于基线系统，展现了多模态融合的潜力。

📝 摘要（中文）

本文总结了在Interspeech 2025上举办的MISP 2025挑战赛的成果，该挑战赛侧重于通过结合视频模态和音频模态实现多模态、多设备的会议转录。任务包括音视频说话人分离（AVSD）、音视频语音识别（AVSR）以及音视频分离与识别（AVDR）。本文介绍了挑战赛的目标、任务、数据集、基线系统以及参赛者提出的解决方案。最佳系统在基线上取得了显著改进：最佳AVSD模型的说话人分离错误率（DER）为8.09%，提高了7.43%；最佳AVSR系统的字错误率（CER）为9.48%，提高了10.62%；最佳AVDR系统的连接最小排列字错误率（cpCER）为11.56%，提高了72.49%。

🔬 方法详解

问题定义：论文旨在解决会议场景下，复杂声学环境和多设备录制带来的说话人分离和语音识别难题。现有方法在处理此类场景时，往往难以有效利用视频信息，导致性能受限。尤其是在说话人重叠、背景噪声大等情况下，仅依赖音频信息难以达到理想效果。

核心思路：论文的核心思路是融合音频和视频模态的信息，利用视频中的人脸信息辅助说话人分离和语音识别。通过提取视频中的人脸特征，可以更准确地判断说话人的身份和位置，从而提高说话人分离的准确率。同时，视频信息也可以帮助抑制噪声，提升语音识别的鲁棒性。

技术框架：整体框架包含三个主要任务：音视频说话人分离（AVSD）、音视频语音识别（AVSR）和音视频分离与识别（AVDR）。每个任务都包含数据预处理、特征提取、模型训练和后处理等阶段。AVSD任务通常采用基于深度学习的聚类或分类方法，AVSR任务则采用端到端的语音识别模型，AVDR任务则将AVSD和AVSR的结果进行联合优化。

关键创新：该挑战赛的关键创新在于鼓励参赛者探索多模态融合的方法，特别是如何有效地利用视频信息来提升音频处理的性能。与传统的仅依赖音频的方法相比，多模态融合能够提供更丰富的信息，从而提高系统的鲁棒性和准确性。此外，AVDR任务的提出也鼓励了对说话人分离和语音识别的联合优化，从而进一步提升整体性能。

关键设计：具体的模型设计和参数设置取决于参赛者。常见的技术细节包括：使用预训练的人脸识别模型提取人脸特征，使用注意力机制融合音频和视频特征，设计特定的损失函数来优化说话人分离和语音识别的性能，以及采用数据增强技术来提高模型的泛化能力。此外，后处理技术，如语音活动检测和说话人角色分配，也对最终结果有重要影响。

🖼️ 关键图片

📊 实验亮点

挑战赛结果显示，最佳AVSD模型的DER降低至8.09%，相比基线系统提升了7.43%；最佳AVSR系统的CER降低至9.48%，提升了10.62%；最佳AVDR系统的cpCER降低至11.56%，提升幅度高达72.49%。这些数据表明，多模态融合在会议场景下的语音处理中具有显著优势。

🎯 应用场景

该研究成果可广泛应用于智能会议系统、远程协作平台、视频监控、语音助手等领域。通过提升会议场景下的语音处理能力，可以提高会议效率、改善用户体验。未来，该技术有望应用于更复杂的场景，如智能家居、自动驾驶等，实现更智能、更便捷的人机交互。

📄 摘要（原文）

Meetings are a valuable yet challenging scenario for speech applications due to complex acoustic conditions. This paper summarizes the outcomes of the MISP 2025 Challenge, hosted at Interspeech 2025, which focuses on multi-modal, multi-device meeting transcription by incorporating video modality alongside audio. The tasks include Audio-Visual Speaker Diarization (AVSD), Audio-Visual Speech Recognition (AVSR), and Audio-Visual Diarization and Recognition (AVDR). We present the challenge's objectives, tasks, dataset, baseline systems, and solutions proposed by participants. The best-performing systems achieved significant improvements over the baseline: the top AVSD model achieved a Diarization Error Rate (DER) of 8.09%, improving by 7.43%; the top AVSR system achieved a Character Error Rate (CER) of 9.48%, improving by 10.62%; and the best AVDR system achieved a concatenated minimum-permutation Character Error Rate (cpCER) of 11.56%, improving by 72.49%.

The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理