Whisper Has an Internal Word Aligner
作者: Sung-Lin Yeh, Yen Meng, Hao Tang
分类: eess.AS, cs.CL
发布日期: 2025-09-12
备注: ASRU 2025
💡 一句话要点
Whisper内部蕴含词对齐能力,无需额外训练即可高精度提取词级时间戳。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 词对齐 时间戳 注意力机制 无监督学习
📋 核心要点
- 现有方法在Whisper中获取准确词级时间戳时,需要额外训练或效果不佳,且评估标准较为宽松。
- 论文核心思想是利用Whisper内部已存在的、能够捕获准确词对齐的特定注意力头,无需额外训练。
- 实验表明,该方法在更严格的容忍度下,能够产生比现有方法更准确的词对齐结果。
📝 摘要(中文)
本文发现,强大的自动语音识别器Whisper内部存在能够捕获精确词对齐的注意力头,并且这些注意力头与其他注意力头有显著差异。研究表明,使用字符比使用wordpiece能产生更精细、更准确的对齐。基于这些发现,本文提出了一种无监督方法,通过过滤注意力头并使用字符进行teacher forcing,从而提取词对齐。该方法无需额外训练,且在20毫秒到100毫秒的严格容忍度下,产生的词对齐比现有方法更准确。
🔬 方法详解
问题定义:论文旨在解决从Whisper模型中提取精确的词级别时间戳的问题。现有方法要么需要额外的训练,增加了计算成本和复杂度,要么精度不足,尤其是在对时间戳精度要求较高的情况下(例如,容忍度小于200ms)。
核心思路:论文的核心思路是利用Whisper模型内部已经存在的注意力机制,发现并提取那些能够准确捕获词对齐信息的注意力头。通过分析不同注意力头的特性,区分出对词对齐有贡献的注意力头,并利用这些注意力头来生成词级别的时间戳。
技术框架:该方法主要包含以下几个步骤:1) 分析Whisper模型中不同注意力头的行为,识别出能够捕获词对齐信息的注意力头。2) 使用字符级别的teacher forcing来指导Whisper模型生成对齐信息,因为字符级别的对齐比wordpiece级别更精细。3) 通过过滤注意力头,只保留对词对齐有贡献的注意力头,从而提高对齐的准确性。4) 利用这些过滤后的注意力头来提取词级别的时间戳。
关键创新:该方法最重要的创新点在于,它是一种无监督的方法,不需要额外的训练数据或模型。它直接利用了Whisper模型内部已经学习到的知识,通过分析注意力机制来提取词对齐信息。此外,使用字符级别的teacher forcing也是一个关键创新,它可以产生更精细的对齐结果。
关键设计:论文的关键设计包括:1) 如何识别和过滤对词对齐有贡献的注意力头,这可能涉及到对注意力权重的统计分析或可视化分析。2) 如何有效地使用字符级别的teacher forcing来指导Whisper模型生成对齐信息,这可能涉及到调整损失函数或训练策略。3) 如何将注意力权重转换为词级别的时间戳,这可能涉及到一些后处理步骤,例如平滑或对齐调整。
📊 实验亮点
该研究最重要的实验结果是,提出的无监督方法在20毫秒到100毫秒的严格容忍度下,产生的词对齐比现有方法更准确。这意味着该方法在对时间戳精度要求较高的场景下具有显著优势。具体的性能数据和对比基线在论文中进行了详细的展示。
🎯 应用场景
该研究成果可广泛应用于语音识别后处理、语音翻译、语音搜索等领域。精确的词级时间戳能够提升语音转录的质量,改善用户体验,并为下游任务提供更丰富的信息。例如,在视频字幕生成中,可以利用该方法自动生成更准确的字幕时间轴。该研究也为探索大型语音模型内部机制提供了新的思路。
📄 摘要(原文)
There is an increasing interest in obtaining accurate word-level timestamps from strong automatic speech recognizers, in particular Whisper. Existing approaches either require additional training or are simply not competitive. The evaluation in prior work is also relatively loose, typically using a tolerance of more than 200 ms. In this work, we discover attention heads in Whisper that capture accurate word alignments and are distinctively different from those that do not. Moreover, we find that using characters produces finer and more accurate alignments than using wordpieces. Based on these findings, we propose an unsupervised approach to extracting word alignments by filtering attention heads while teacher forcing Whisper with characters. Our approach not only does not require training but also produces word alignments that are more accurate than prior work under a stricter tolerance between 20 ms and 100 ms.