Predicting Compact Phrasal Rewrites with Large Language Models for ASR Post Editing
作者: Hao Zhang, Felix Stahlberg, Shankar Kumar
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-01-23
备注: accepted by ICASSP 2025
💡 一句话要点
提出基于短语的压缩重写方法,提升LLM在ASR后编辑任务中的效率与精度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动语音识别 后编辑 大型语言模型 短语重写 编辑表示 效率优化
📋 核心要点
- 现有LLM重写任务计算成本高,忽略了输入输出间的重叠,效率有待提升。
- 提出基于短语的编辑表示方法,压缩重写内容,降低解码成本,提升效率。
- 实验表明,该方法在ASR后编辑任务中,实现了效率与精度的更好平衡。
📝 摘要(中文)
大型语言模型(LLM)擅长文本风格迁移和语法纠错等重写任务。尽管这些任务的输入和输出之间存在相当大的重叠,但解码成本仍然随着输出长度的增加而增加,而忽略了重叠量。Kaneko和Okazaki (2023) 提出了与模型无关的编辑跨度表示来压缩重写,从而节省计算量,他们报告称,在四个重写任务中,输出长度减少了近 80%,而对准确性的影响极小。在本文中,我们提出了受基于短语的统计机器翻译启发的替代编辑短语表示。我们系统地将我们的短语表示与他们的跨度表示进行比较。我们将 LLM 重写模型应用于自动语音识别 (ASR) 后编辑任务,并表明我们的仅目标短语编辑表示具有最佳的效率-准确性权衡。在 LibriSpeech 测试集上,我们的方法缩小了编辑跨度模型和完整重写模型之间 50-60% 的 WER 差距,同时仅损失了编辑跨度模型 10-20% 的长度减少率。
🔬 方法详解
问题定义:论文旨在解决自动语音识别(ASR)后编辑任务中,使用大型语言模型(LLM)进行文本重写时计算成本过高的问题。现有方法,如直接使用LLM进行全文重写,忽略了输入(ASR识别结果)和输出(修正后的文本)之间的大量重叠,导致解码效率低下。Kaneko和Okazaki提出的编辑跨度表示虽然能压缩重写内容,但精度有所损失。
核心思路:论文的核心思路是借鉴短语机器翻译的思想,将编辑操作表示为短语级别的替换,而不是简单的跨度替换。通过更精细的编辑单元,可以在压缩重写内容的同时,更好地保留原始文本的信息,从而在效率和精度之间取得更好的平衡。
技术框架:整体框架包括以下几个步骤:1) ASR系统生成初始文本;2) 编辑短语表示模块将重写任务转化为短语级别的编辑操作;3) LLM根据编辑短语表示生成修正后的文本。关键模块是编辑短语表示,它将输入文本分割成短语,并预测需要替换的短语以及替换后的目标短语。
关键创新:论文的关键创新在于提出了基于短语的编辑表示方法。与传统的编辑跨度表示相比,短语表示能够更准确地捕捉到需要修改的语义单元,从而减少了信息损失,提高了重写精度。此外,论文还探索了不同的短语表示方式,例如仅保留目标短语,进一步提升了效率。
关键设计:论文中,编辑短语表示的具体实现方式包括:首先,使用启发式方法或统计方法将输入文本分割成短语;然后,对于每个短语,预测是否需要替换,如果需要,则预测替换后的目标短语。目标短语可以使用LLM生成,也可以从预定义的短语库中选择。损失函数的设计需要考虑重写精度和效率,例如可以使用交叉熵损失函数来训练LLM生成目标短语,并使用长度惩罚来控制生成文本的长度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的基于短语的编辑表示方法在LibriSpeech测试集上,缩小了编辑跨度模型和完整重写模型之间50-60%的WER差距,同时仅损失了编辑跨度模型10-20%的长度减少率。这表明该方法在效率和精度之间取得了显著的平衡,优于现有的编辑跨度表示方法。
🎯 应用场景
该研究成果可广泛应用于语音助手、语音搜索、会议记录等场景,提升语音交互的准确性和用户体验。通过降低ASR后编辑的计算成本,可以更高效地利用LLM进行文本修正,提高工作效率,并为低资源语言的ASR后编辑提供更经济的解决方案。
📄 摘要(原文)
Large Language Models (LLMs) excel at rewriting tasks such as text style transfer and grammatical error correction. While there is considerable overlap between the inputs and outputs in these tasks, the decoding cost still increases with output length, regardless of the amount of overlap. By leveraging the overlap between the input and the output, Kaneko and Okazaki (2023) proposed model-agnostic edit span representations to compress the rewrites to save computation. They reported an output length reduction rate of nearly 80% with minimal accuracy impact in four rewriting tasks. In this paper, we propose alternative edit phrase representations inspired by phrase-based statistical machine translation. We systematically compare our phrasal representations with their span representations. We apply the LLM rewriting model to the task of Automatic Speech Recognition (ASR) post editing and show that our target-phrase-only edit representation has the best efficiency-accuracy trade-off. On the LibriSpeech test set, our method closes 50-60% of the WER gap between the edit span model and the full rewrite model while losing only 10-20% of the length reduction rate of the edit span model.