Sortformer: A Novel Approach for Permutation-Resolved Speaker Supervision in Speech-to-Text Systems

📄 arXiv: 2409.06656v3 📥 PDF

作者: Taejin Park, Ivan Medennikov, Kunal Dhawan, Weiqing Wang, He Huang, Nithin Rao Koluguri, Krishna C. Puvvada, Jagadeesh Balam, Boris Ginsburg

分类: eess.AS, cs.CL, cs.LG, cs.SD

发布日期: 2024-09-10 (更新: 2025-07-19)

备注: Published at ICML 2025

期刊: Proceedings of the 42nd International Conference on Machine Learning (ICML), 2025


💡 一句话要点

Sortformer:一种用于语音转文本系统中置换解析说话人监督的新方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音转文本 说话人日志 多说话人 置换不变性 排序损失 Transformer 语音识别

📋 核心要点

  1. 现有语音转文本模型在处理多说话人场景时,面临说话人置换问题,导致无法准确识别每个说话人的内容。
  2. Sortformer通过引入Sort Loss和正弦核嵌入,在编码器中整合说话人信息,并使用排序目标解决置换问题。
  3. 实验结果表明,Sort Loss能提升说话人日志性能,且Sortformer的说话人监督能提高多说话人转录的准确性。

📝 摘要(中文)

Sortformer是一种基于编码器的说话人日志模型,旨在监督语音转文本模型中的说话人标记。它不完全依赖于置换不变损失(PIL),而是引入了Sort Loss来解决置换问题,可以独立使用或与PIL结合使用。此外,我们提出了一种简化的多说话人语音转文本架构,该架构利用Sortformer进行说话人监督,并使用正弦核函数将说话人标签嵌入到编码器中。这种设计通过排序目标解决说话人置换问题,有效地桥接时间戳和token,以监督输出转录中的说话人标签。实验表明,Sort Loss可以提高说话人日志性能,并且结合Sortformer的说话人监督可以提高多说话人转录的准确性。我们预计所提出的Sortformer和多说话人架构将能够无缝地将说话人标记功能集成到基础语音转文本系统和多模态大型语言模型(LLM)中,提供一种易于采用且用户友好的机制,以增强其在说话人感知任务中的多功能性和性能。代码和训练模型已通过NVIDIA NeMo框架公开提供。

🔬 方法详解

问题定义:论文旨在解决多说话人语音转文本任务中,由于说话人顺序不确定性导致的置换问题。现有的方法主要依赖于置换不变损失(PIL),但PIL可能存在训练不稳定或收敛速度慢的问题,尤其是在说话人数量较多时。

核心思路:论文的核心思路是通过引入Sort Loss来显式地对说话人进行排序,从而解决置换问题。同时,利用正弦核函数将说话人标签嵌入到编码器中,使得模型能够更好地感知说话人信息。这种设计旨在将时间戳和token与说话人标签对齐,从而实现更准确的说话人监督。

技术框架:整体架构包括一个基于Transformer的编码器(Sortformer)和一个语音转文本解码器。Sortformer接收语音特征和说话人标签作为输入,并输出带有说话人信息的编码表示。解码器利用这些编码表示生成文本转录,同时预测每个token对应的说话人标签。训练过程中,使用Sort Loss和传统的语音转文本损失函数进行联合优化。

关键创新:论文的关键创新在于引入了Sort Loss,它能够显式地对说话人进行排序,从而避免了置换问题。与传统的PIL方法相比,Sort Loss能够提供更强的监督信号,从而提高模型的训练效率和性能。此外,利用正弦核函数嵌入说话人标签也是一个创新点,它可以有效地将说话人信息融入到编码器中。

关键设计:Sort Loss的设计基于排序的思想,它鼓励模型将不同说话人的表示进行区分,并按照一定的顺序排列。正弦核函数的选择是为了提供一种平滑且周期性的嵌入方式,使得模型能够更好地泛化到不同的说话人。此外,论文还提出了一种简化的多说话人语音转文本架构,该架构易于集成到现有的语音转文本系统中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Sort Loss可以显著提高说话人日志的性能。同时,将Sortformer的说话人监督应用于多说话人语音转文本任务,可以提高转录的准确性。具体性能数据和对比基线在论文中详细给出,展示了Sortformer相对于现有方法的优势。

🎯 应用场景

该研究成果可广泛应用于多说话人会议记录、语音助手、客户服务等场景。通过准确识别每个说话人的内容,可以提升语音交互的效率和用户体验。未来,该技术有望与多模态大型语言模型结合,实现更智能的语音理解和生成。

📄 摘要(原文)

Sortformer is an encoder-based speaker diarization model designed for supervising speaker tagging in speech-to-text models. Instead of relying solely on permutation invariant loss (PIL), Sortformer introduces Sort Loss to resolve the permutation problem, either independently or in tandem with PIL. In addition, we propose a streamlined multi-speaker speech-to-text architecture that leverages Sortformer for speaker supervision, embedding speaker labels into the encoder using sinusoidal kernel functions. This design addresses the speaker permutation problem through sorted objectives, effectively bridging timestamps and tokens to supervise speaker labels in the output transcriptions. Experiments demonstrate that Sort Loss can boost speaker diarization performance, and incorporating the speaker supervision from Sortformer improves multi-speaker transcription accuracy. We anticipate that the proposed Sortformer and multi-speaker architecture will enable the seamless integration of speaker tagging capabilities into foundational speech-to-text systems and multimodal large language models (LLMs), offering an easily adoptable and user-friendly mechanism to enhance their versatility and performance in speaker-aware tasks. The code and trained models are made publicly available through the NVIDIA NeMo Framework.