Automatic Labelling of Speech Translation Errors

📄 arXiv: 2606.06047v1 📥 PDF

作者: Dominik Macháček, Maike Züfle, Ondrej Klejch

分类: cs.CL

发布日期: 2026-06-04


💡 一句话要点

提出语音翻译错误自动标注方法以提升系统可信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音翻译 错误标注 信心评估 多模态学习 自然语言处理

📋 核心要点

  1. 当前缺乏有效的方法来评估语音翻译的信心和质量,导致翻译错误频发,影响系统的可信度。
  2. 本文提出了语音翻译错误标注(STEL)方法,创建了注释协议和真实数据集,以评估翻译错误。
  3. 实验结果显示,现有的文本和语音处理系统在STEL任务中的表现仅为人类精度的一半,且两者在错误标注上互为补充。

📝 摘要(中文)

语音翻译中的错误降低了语音翻译系统的可信度,并可能导致严重后果。然而,目前尚无建立的评估语音翻译信心和质量的方法。为此,本文提出了语音翻译错误标注(STEL)方法,创建了注释协议和小型真实端到端评估数据集,并分析了现有的文本和语音处理系统在STEL任务中的表现。结果表明,文本处理的XCOMET和多模态LLM Qwen2.5-Omni在STEL任务中的精度约为人类的一半。此外,研究发现直接的语音处理对于STEL任务是必要的,当前的文本和语音处理系统在标注翻译错误与语音处理错误方面是互补的。

🔬 方法详解

问题定义:本文旨在解决语音翻译系统中缺乏有效错误评估方法的问题,现有方法无法准确识别和标注翻译错误,影响了系统的可信度。

核心思路:提出语音翻译错误标注(STEL)方法,通过创建注释协议和真实数据集,分析现有系统在该任务中的表现,以推动该领域的研究进展。

技术框架:整体架构包括数据收集、注释协议设计、模型训练与评估三个主要模块。首先收集真实的语音翻译数据,然后设计注释协议以标注错误,最后训练模型并进行性能评估。

关键创新:最重要的创新在于提出了STEL方法及其注释协议,填补了语音翻译错误评估的空白,并展示了文本与语音处理系统在错误标注中的互补性。

关键设计:在模型训练中,采用了特定的损失函数以优化错误标注的准确性,同时调整了模型参数以适应语音处理的特点,确保系统能够有效识别翻译错误。

📊 实验亮点

实验结果表明,文本处理的XCOMET和多模态LLM Qwen2.5-Omni在STEL任务中的精度约为人类的一半,显示出当前系统在错误标注方面的局限性。同时,研究强调了直接语音处理在该任务中的必要性,为未来的研究提供了新的方向。

🎯 应用场景

该研究的潜在应用领域包括自动翻译系统、语音助手和多语言交流平台。通过提高语音翻译的错误标注能力,可以增强用户对翻译系统的信任,减少因翻译错误导致的误解和沟通障碍,具有重要的实际价值和社会影响。

📄 摘要(原文)

Errors in speech translations reduce trustworthiness of Speech Translation (ST) systems and can have serious consequences. Yet currently there is no established methodology for evaluating confidence and quality estimation of speech translations. To initiate progress in this direction, we propose Speech Translation Error Labelling (STEL). We create an annotation protocol, a small authentic end-to-end evaluation dataset, and we analyse how existing text-only and speech-processing systems perform the STEL task. Our results show that text-only XCOMET and multimodal LLM Qwen2.5-Omni are able to perform the STEL task in roughly half the precision of humans. We also find that direct speech processing is necessary for the STEL task, and that the current text-only and speech-processing systems are complementary in labelling translation-only vs. speech-processing errors in ST.