Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration

📄 arXiv: 2601.02906v1 📥 PDF

作者: Ryan Soh-Eun Shim, Kwanghee Choi, Kalvin Chang, Ming-Hao Hsu, Florian Eichin, Zhizheng Wu, Alane Suhr, Michael A. Hedderich, David Harwath, David R. Mortensen, Barbara Plank

分类: cs.CL

发布日期: 2026-01-06


💡 一句话要点

利用语音基础模型中的线性脚本表示实现零样本转写

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 多语言模型 脚本转换 零样本学习 线性表示

📋 核心要点

  1. 多语言语音模型在处理不同区域变体时,面临输出脚本不确定的问题。
  2. 该论文提出通过修改模型激活空间中的线性脚本表示,实现对输出脚本的控制。
  3. 实验表明,该方法即使在非常规的语言-脚本配对中也能有效诱导脚本转换,且性能优异。

📝 摘要(中文)

诸如Whisper的多语言语音基础模型在网络规模数据上进行训练,其中每种语言的数据包含大量的区域变体。然而,不同的区域变体通常使用不同的脚本来书写同一种语言,导致语音识别输出在输出脚本方面也存在不确定性。为了缓解这个问题,我们证明了脚本在线性编码在多语言语音模型的激活空间中,并且在推理时修改激活可以实现对输出脚本的直接控制。我们发现,在测试时将这种脚本向量添加到激活中,甚至可以在非常规的语言-脚本配对中诱导脚本更改(例如,西里尔字母的意大利语和拉丁字母的日语)。我们将这种方法应用于对语音识别输出的脚本进行后验控制,我们观察到在Whisper的所有模型尺寸上都具有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决多语言语音基础模型在处理不同区域变体时,语音识别输出脚本不确定的问题。现有的语音识别系统往往难以控制输出的脚本类型,导致在特定应用场景下不够灵活。例如,用户可能希望将日语语音转录为罗马字,或者将意大利语转录为西里尔字母,而现有系统通常无法直接支持这种需求。

核心思路:论文的核心思路是发现并利用语音模型激活空间中线性编码的脚本信息。通过分析模型的内部表示,发现不同脚本之间存在线性关系,并可以通过修改激活向量来控制输出脚本。这种方法无需重新训练模型,即可实现对输出脚本的后验控制。

技术框架:该方法主要包含以下几个步骤:1) 分析语音模型的激活空间,确定不同脚本的线性表示;2) 计算不同脚本之间的脚本向量;3) 在推理时,将相应的脚本向量添加到模型的激活中,从而诱导模型输出目标脚本。整个过程无需修改模型结构或参数,仅需在推理阶段进行干预。

关键创新:该论文最重要的创新点在于发现了语音模型激活空间中线性编码的脚本信息,并提出了一种简单有效的脚本控制方法。与传统的脚本转换方法相比,该方法无需额外的训练数据或模型,即可实现零样本的脚本转换。此外,该方法还具有很强的泛化能力,可以应用于不同的语言和脚本组合。

关键设计:论文的关键设计包括:1) 如何有效地提取脚本向量:通过分析模型在不同脚本数据上的激活,计算不同脚本之间的平均激活差异,作为脚本向量;2) 如何确定添加脚本向量的位置:选择模型中对脚本信息最敏感的层,在该层的激活上添加脚本向量;3) 如何控制脚本向量的强度:通过调整脚本向量的缩放因子,控制脚本转换的程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Whisper模型的各个尺寸上均表现出竞争力的性能。即使在非传统的语言-脚本配对(如西里尔字母的意大利语和拉丁字母的日语)中,也能成功诱导脚本转换。该方法无需任何额外的训练数据,即可实现零样本的脚本转换,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于多语言语音识别、语音翻译等领域。例如,可以根据用户需求,将语音转录成特定脚本,方便不同文化背景的用户阅读和理解。此外,该技术还可以用于语音教育,帮助学习者掌握不同语言的脚本书写规范。未来,该技术有望进一步提升语音交互系统的智能化和个性化水平。

📄 摘要(原文)

Multilingual speech foundation models such as Whisper are trained on web-scale data, where data for each language consists of a myriad of regional varieties. However, different regional varieties often employ different scripts to write the same language, rendering speech recognition output also subject to non-determinism in the output script. To mitigate this problem, we show that script is linearly encoded in the activation space of multilingual speech models, and that modifying activations at inference time enables direct control over output script. We find the addition of such script vectors to activations at test time can induce script change even in unconventional language-script pairings (e.g. Italian in Cyrillic and Japanese in Latin script). We apply this approach to inducing post-hoc control over the script of speech recognition output, where we observe competitive performance across all model sizes of Whisper.