Whisper Has an Internal Word Aligner
作者: Sung-Lin Yeh, Yen Meng, Hao Tang
分类: eess.AS, cs.CL
发布日期: 2025-09-12
备注: ASRU 2025
💡 一句话要点
Whisper内部蕴含词对齐能力,无需额外训练即可高精度提取词级时间戳。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 词对齐 时间戳 注意力机制 无监督学习
📋 核心要点
- 现有方法在Whisper中获取准确词级时间戳时,要么需要额外训练,要么精度不足,且评估标准较为宽松。
- 该论文的核心思想是,通过识别并过滤Whisper中特定的注意力头,利用字符级别的teacher forcing来提取词对齐信息。
- 实验结果表明,该方法无需额外训练,即可在更严格的时间容忍度下,获得比现有技术更准确的词对齐。
📝 摘要(中文)
本文发现,强大的自动语音识别器Whisper内部存在能够捕获精确词对齐的注意力头,且这些注意力头与其他注意力头有显著差异。研究表明,使用字符比使用wordpiece能产生更精细、更准确的对齐。基于这些发现,本文提出了一种无监督方法,通过过滤注意力头并使用字符进行teacher forcing,从而提取词对齐。该方法无需额外训练,且在20毫秒到100毫秒的严格容忍度下,产生的词对齐比现有方法更准确。
🔬 方法详解
问题定义:论文旨在解决从Whisper模型中提取高精度词级时间戳的问题。现有方法要么需要额外的训练成本,要么对齐精度不足,并且通常使用大于200ms的宽松容忍度进行评估,无法满足对时间精度要求更高的应用场景。
核心思路:论文的核心思路是利用Whisper模型内部已经存在的注意力机制,发现并提取能够准确捕获词对齐信息的注意力头。通过分析不同注意力头的特性,区分出负责词对齐的特定头部,并利用这些头部的信息进行词对齐。
技术框架:该方法主要包含以下几个步骤:1) 分析Whisper模型中不同注意力头的特性,识别出负责词对齐的头部;2) 使用字符级别的teacher forcing,迫使模型生成更精细的对齐;3) 通过过滤非对齐注意力头,提取更准确的词对齐信息。整个过程无需额外的训练。
关键创新:该方法最大的创新在于发现Whisper模型内部已经蕴含了词对齐的能力,并提出了一种无监督的方法来提取这些信息。与现有方法相比,该方法无需额外的训练,并且能够产生更准确的词对齐。此外,使用字符级别的对齐也比wordpiece级别的对齐更加精细。
关键设计:论文的关键设计包括:1) 设计了合适的指标来评估不同注意力头部的对齐能力;2) 采用了字符级别的teacher forcing,以获得更精细的对齐信息;3) 使用过滤策略,去除噪声注意力头,提高对齐精度。具体的参数设置和损失函数等细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该论文提出的无监督词对齐方法,在更严格的时间容忍度(20ms-100ms)下,实现了比现有技术更准确的词对齐。具体性能数据和对比基线在摘要中未明确给出,属于未知信息,但强调了优于现有技术。
🎯 应用场景
该研究成果可广泛应用于语音识别后处理、语音翻译、语音编辑等领域。精确的词级时间戳能够提升语音搜索、语音标注、语音合成等任务的性能。此外,该方法无需额外训练的特性,使其能够快速部署到各种应用场景中,具有很高的实用价值和潜在的商业价值。
📄 摘要(原文)
There is an increasing interest in obtaining accurate word-level timestamps from strong automatic speech recognizers, in particular Whisper. Existing approaches either require additional training or are simply not competitive. The evaluation in prior work is also relatively loose, typically using a tolerance of more than 200 ms. In this work, we discover attention heads in Whisper that capture accurate word alignments and are distinctively different from those that do not. Moreover, we find that using characters produces finer and more accurate alignments than using wordpieces. Based on these findings, we propose an unsupervised approach to extracting word alignments by filtering attention heads while teacher forcing Whisper with characters. Our approach not only does not require training but also produces word alignments that are more accurate than prior work under a stricter tolerance between 20 ms and 100 ms.