CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions

📄 arXiv: 2408.16589v1 📥 PDF

作者: Laurin Wagner, Bernhard Thallinger, Mario Zusag

分类: cs.LG

发布日期: 2024-08-29

备注: Published at INTERSPEECH2024

🔗 代码/项目: GITHUB


💡 一句话要点

CrisperWhisper:通过优化Whisper模型提升语音转录时间戳精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 时间戳 动态时间规整 Whisper模型 语音转录 口语化语音 模型微调

📋 核心要点

  1. 现有语音识别模型在词级别时间戳精度方面存在不足,尤其是在嘈杂环境和多说话人场景下。
  2. CrisperWhisper通过优化tokenizer和微调Whisper模型,使其更准确地转录语音并生成更精确的时间戳。
  3. 实验表明,该方法在多个语音转录任务上取得了SOTA性能,并有效降低了转录错误。

📝 摘要(中文)

本文提出通过精细调整Whisper语音识别模型的tokenizer,显著提高词级别时间戳的精度。该方法利用动态时间规整技术处理解码器中的交叉注意力得分。通过微调模型,使其生成更贴近原文的语音转录,并采用多种技术增强模型对多说话人和背景噪声的鲁棒性。实验结果表明,该方法在原文语音转录、词语分割和填充事件的定时检测等基准测试中取得了最先进的性能,并能有效缓解转录幻觉问题。代码已开源。

🔬 方法详解

问题定义:论文旨在解决语音转录中词级别时间戳精度不足的问题。现有方法在处理口语化表达、背景噪声和多说话人场景时,时间戳的准确性会显著下降,影响后续应用,例如语音分析、字幕生成等。此外,现有模型还存在转录幻觉问题,即生成不存在于原始音频中的词语。

核心思路:论文的核心思路是通过优化Whisper模型的tokenizer,使其更好地适应口语化语音的特点。同时,通过微调模型,使其生成更贴近原文的转录结果,从而提高时间戳的准确性。此外,利用动态时间规整(DTW)技术,将解码器的交叉注意力得分与音频特征对齐,进一步提升时间戳精度。

技术框架:CrisperWhisper的技术框架主要包括以下几个阶段:1) tokenizer优化:调整Whisper模型的tokenizer,使其更好地处理口语化语音。2) 模型微调:使用包含精确时间戳的语音数据对模型进行微调,使其生成更准确的转录结果。3) 动态时间规整:利用DTW算法,将解码器的交叉注意力得分与音频特征进行对齐,从而获得更精确的词级别时间戳。4) 噪声和多说话人鲁棒性增强:采用数据增强等技术,提高模型在复杂环境下的性能。

关键创新:该方法最重要的创新点在于对Whisper模型的tokenizer进行了精细调整,使其能够更好地处理口语化语音,从而提高了时间戳的精度。此外,该方法还结合了动态时间规整技术,进一步提升了时间戳的准确性。与现有方法相比,CrisperWhisper在原文语音转录、词语分割和填充事件的定时检测等任务上取得了显著的性能提升。

关键设计:论文中tokenizer的优化策略未知,但强调了对tokenizer的调整是提升时间戳精度的关键。模型微调阶段使用了包含精确时间戳的语音数据,损失函数的设计也可能针对时间戳精度进行了优化。动态时间规整算法的具体参数设置也可能对最终结果产生影响。噪声和多说话人鲁棒性增强方面,可能采用了数据增强、对抗训练等技术,具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CrisperWhisper在原文语音转录、词语分割和填充事件的定时检测等基准测试中取得了state-of-the-art的性能。具体性能数据未知,但摘要强调了其在多个任务上的显著提升,并能有效缓解转录幻觉问题。该方法在提升时间戳精度的同时,也提高了语音转录的准确性。

🎯 应用场景

CrisperWhisper在多个领域具有广泛的应用前景,例如自动字幕生成、语音搜索、语音分析、会议记录和语音助手等。更精确的时间戳可以提高这些应用的性能和用户体验。此外,该技术还可以用于语音治疗和语言学习等领域,帮助人们更好地理解和分析语音。

📄 摘要(原文)

We demonstrate that carefully adjusting the tokenizer of the Whisper speech recognition model significantly improves the precision of word-level timestamps when applying dynamic time warping to the decoder's cross-attention scores. We fine-tune the model to produce more verbatim speech transcriptions and employ several techniques to increase robustness against multiple speakers and background noise. These adjustments achieve state-of-the-art performance on benchmarks for verbatim speech transcription, word segmentation, and the timed detection of filler events, and can further mitigate transcription hallucinations. The code is available open https://github.com/nyrahealth/CrisperWhisper.