Chain of Correction for Full-text Speech Recognition with Large Language Models

📄 arXiv: 2504.01519v2 📥 PDF

作者: Zhiyuan Tang, Dong Wang, Zhikai Zhou, Yong Liu, Shen Huang, Shidong Shang

分类: cs.CL, eess.AS

发布日期: 2025-04-02 (更新: 2025-08-20)


💡 一句话要点

提出链式纠错(CoC)方法,利用大语言模型提升全文语音识别的纠错能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 错误纠正 大语言模型 链式纠错 多轮对话 全文处理 自然语言处理

📋 核心要点

  1. 现有基于LLM的全文语音识别纠错方法在稳定性、可控性、完整性和流畅性方面存在挑战。
  2. 论文提出链式纠错(CoC)方法,通过多轮对话形式,分段纠正错误,并利用预识别文本和全文语境指导纠错。
  3. 实验结果表明,CoC在ChFT数据集上显著优于基线系统,并在超长文本和不同信息指导方面进行了探索。

📝 摘要(中文)

本文提出了一种名为链式纠错(CoC)的方法,旨在利用大语言模型(LLM)进行自动语音识别(ASR)的全文错误纠正,以解决标点恢复和逆文本归一化等多种错误类型,并处理长文本上下文。现有方法在稳定性、可控性、完整性和流畅性方面存在挑战。CoC采用多轮对话的形式,在预识别文本和全文语境的指导下,逐段纠正错误,从而更好地理解语义。我们在开源的ChFT数据集上微调预训练的LLM来评估CoC的性能。实验结果表明,CoC在纠正全文ASR输出方面显著优于基线和基准系统。我们还分析了纠正阈值以平衡欠纠正和过度改写,将CoC推广到超长ASR输出,并探索使用其他类型的信息来指导错误纠正。

🔬 方法详解

问题定义:论文旨在解决自动语音识别(ASR)产生的全文文本错误纠正问题,包括标点符号缺失、逆文本归一化错误等。现有方法在长文本处理中面临稳定性差、可控性弱、纠错不完整以及生成文本不流畅等痛点。

核心思路:核心思路是将全文纠错任务分解为多轮对话式的分段纠错过程。通过预识别文本和全文上下文信息,引导LLM逐段进行错误纠正,从而提高纠错的准确性和流畅性。这种分而治之的策略有助于降低LLM处理长文本的难度,并增强可控性。

技术框架:CoC的技术框架主要包含以下几个阶段:1) ASR系统生成初始文本;2) 将初始文本分割成多个片段;3) LLM以多轮对话的形式,逐个片段进行错误纠正,每次纠正都参考预识别文本和全文上下文;4) 将纠正后的片段拼接成最终的纠正文本。框架的关键在于如何设计多轮对话的prompt,以及如何控制LLM的纠错程度。

关键创新:CoC的关键创新在于将全文纠错任务转化为多轮对话式的分段纠错,并利用预识别文本和全文上下文信息进行指导。与传统的端到端纠错方法相比,CoC具有更好的可控性和稳定性,能够更有效地处理长文本和复杂错误。此外,CoC还探索了使用不同类型的辅助信息(例如,语音特征)来指导纠错。

关键设计:论文的关键设计包括:1) 多轮对话的prompt设计,需要清晰地指示LLM进行错误纠正,并提供必要的上下文信息;2) 纠错阈值的设置,用于平衡欠纠正和过度改写;3) 损失函数的设计,用于微调LLM,使其更好地适应全文纠错任务。具体的网络结构使用了预训练的LLM,并通过微调来适应特定的数据集和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoC方法在ChFT数据集上显著优于基线系统。通过精细调整纠正阈值,可以在欠纠正和过度改写之间取得平衡。此外,CoC方法在超长文本上表现出良好的可扩展性,并且可以通过引入其他类型的信息(例如,语音特征)来进一步提升纠错性能。

🎯 应用场景

该研究成果可应用于各种语音交互场景,例如语音助手、语音搜索、会议记录等。通过提高语音识别文本的准确性和可读性,可以提升用户体验,并为后续的自然语言处理任务提供更可靠的输入。未来,该技术有望应用于更复杂的语音理解和生成任务,例如自动摘要、机器翻译等。

📄 摘要(原文)

Full-text error correction with Large Language Models (LLMs) for Automatic Speech Recognition (ASR) is attracting increased attention for its ability to address a wide range of error types, such as punctuation restoration and inverse text normalization, across long context. However, challenges remain regarding stability, controllability, completeness, and fluency. To mitigate these issues, this paper proposes the Chain of Correction (CoC), which uses a multi-turn chat format to correct errors segment by segment, guided by pre-recognized text and full-text context for better semantic understanding. Utilizing the open-sourced ChFT dataset, we fine-tune a pre-trained LLM to evaluate CoC's performance. Experiments show that CoC significantly outperforms baseline and benchmark systems in correcting full-text ASR outputs. We also analyze correction thresholds to balance under-correction and over-rephrasing, extrapolate CoC on extra-long ASR outputs, and explore using other types of information to guide error correction.