Enhancing Speech Emotion Recognition Leveraging Aligning Timestamps of ASR Transcripts and Speaker Diarization

📄 arXiv: 2507.19356v1 📥 PDF

作者: Hsuan-Yu Wang, Pei-Ying Lee, Berlin Chen

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-07-25

备注: 6 pages, 3 figures, to appear in the Proceedings of the 2025 International Conference on Asian Language Processing (IALP)


💡 一句话要点

提出基于时间戳对齐的ASR转录和说话人分离方法,提升语音情感识别精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音情感识别 多模态融合 时间戳对齐 自动语音识别 说话人分离

📋 核心要点

  1. 现有语音情感识别系统在处理对话时,ASR转录和说话人分离结果的时间戳错位会降低识别精度。
  2. 论文提出一种基于预训练模型的时间戳对齐流水线,同步ASR转录和说话人分离结果,生成更精确的说话人片段。
  3. 实验结果表明,该方法在IEMOCAP数据集上有效提升了语音情感识别的准确率,验证了时间对齐的重要性。

📝 摘要(中文)

本文研究了结合自动语音识别(ASR)转录和说话人分离(SD)输出的时间戳对齐,对语音情感识别(SER)准确率的影响。多模态情感识别系统,尤其是在对话场景中,由于这两种模态之间的错位,其可靠性会降低。为了解决这个问题,我们引入了一个对齐流程,利用预训练的ASR和说话人分离模型,系统地同步时间戳以生成准确标记的说话人片段。我们的多模态方法结合了通过RoBERTa提取的文本嵌入和来自Wav2Vec的音频嵌入,利用门控机制增强的交叉注意力融合。在IEMOCAP基准数据集上的实验评估表明,精确的时间戳对齐提高了SER的准确率,优于缺乏同步的基线方法。结果突出了时间对齐的关键重要性,证明了其在提高整体情感识别准确率方面的有效性,并为鲁棒的多模态情感分析奠定了基础。

🔬 方法详解

问题定义:语音情感识别(SER)在对话场景中面临的挑战是,自动语音识别(ASR)转录和说话人分离(SD)的结果往往存在时间戳上的错位。这种错位导致多模态融合时信息不一致,降低了情感识别的准确性。现有的方法通常忽略或简单处理这种时间戳错位,无法充分利用多模态信息的互补性。

核心思路:论文的核心思路是通过精确的时间戳对齐,将ASR转录和说话人分离的结果进行同步,从而提高多模态情感识别的准确性。通过对齐后的数据,可以更准确地将文本信息与对应的语音片段关联起来,减少信息噪声,提升模型性能。

技术框架:整体框架包含以下几个主要步骤:1) 使用预训练的ASR模型生成语音转录文本及其对应的时间戳;2) 使用预训练的说话人分离模型识别语音中的说话人及其对应的时间戳;3) 设计时间戳对齐算法,将ASR转录和说话人分离的结果在时间轴上进行精确对齐,生成带有说话人标签的文本片段;4) 使用RoBERTa提取文本嵌入,使用Wav2Vec提取音频嵌入;5) 使用交叉注意力融合文本和音频嵌入,并通过门控机制增强融合效果;6) 使用融合后的特征进行情感分类。

关键创新:该方法最重要的创新点在于提出了一个基于预训练模型的时间戳对齐流水线,能够有效地解决ASR转录和说话人分离结果的时间戳错位问题。与现有方法相比,该方法能够更精确地对齐多模态信息,从而提高情感识别的准确性。

关键设计:时间戳对齐算法是关键设计之一,具体实现细节未知。此外,交叉注意力融合模块和门控机制的设计也至关重要,它们决定了如何有效地融合文本和音频信息。RoBERTa和Wav2Vec的选择也是重要的设计决策,它们分别负责提取高质量的文本和音频嵌入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在IEMOCAP数据集上,该方法通过精确的时间戳对齐,显著提高了语音情感识别的准确率。具体提升幅度未知,但优于缺乏时间戳同步的基线方法。该结果验证了时间对齐在多模态情感识别中的重要性。

🎯 应用场景

该研究成果可应用于智能客服、心理健康咨询、人机交互等领域。通过准确识别语音中的情感,可以提升用户体验,改善沟通效果,并为情感计算提供更可靠的基础数据。未来,该技术还可扩展到其他多模态情感分析任务,例如视频情感识别。

📄 摘要(原文)

In this paper, we investigate the impact of incorporating timestamp-based alignment between Automatic Speech Recognition (ASR) transcripts and Speaker Diarization (SD) outputs on Speech Emotion Recognition (SER) accuracy. Misalignment between these two modalities often reduces the reliability of multimodal emotion recognition systems, particularly in conversational contexts. To address this issue, we introduce an alignment pipeline utilizing pre-trained ASR and speaker diarization models, systematically synchronizing timestamps to generate accurately labeled speaker segments. Our multimodal approach combines textual embeddings extracted via RoBERTa with audio embeddings from Wav2Vec, leveraging cross-attention fusion enhanced by a gating mechanism. Experimental evaluations on the IEMOCAP benchmark dataset demonstrate that precise timestamp alignment improves SER accuracy, outperforming baseline methods that lack synchronization. The results highlight the critical importance of temporal alignment, demonstrating its effectiveness in enhancing overall emotion recognition accuracy and providing a foundation for robust multimodal emotion analysis.