Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

📄 arXiv: 2512.16378v2 📥 PDF

作者: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle

分类: cs.CL, cs.AI, cs.SD

发布日期: 2025-12-18 (更新: 2025-12-24)

备注: Project available at https://github.com/sarapapi/hearing2translate


💡 一句话要点

首个SpeechLLM综合评测:对比端到端与级联架构语音翻译性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音翻译 SpeechLLM 级联系统 端到端模型 基准测试

📋 核心要点

  1. 现有端到端SpeechLLM在语音翻译质量上与传统级联系统相比表现未知,缺乏系统性对比。
  2. 提出Hearing to Translate测试套件,全面评估SpeechLLM与级联系统在多种条件下的语音翻译性能。
  3. 实验表明,级联系统整体更可靠,SpeechLLM仅在特定场景下可媲美,集成LLM对高质量翻译至关重要。

📝 摘要(中文)

随着大型语言模型(LLM)超越文本领域,将语音作为原生模态集成催生了SpeechLLM,旨在直接翻译口语,绕过传统的基于转录的流程。然而,这种集成是否能提高语音到文本的翻译质量,超越已建立的级联架构,仍然是一个悬而未决的问题。我们提出了Hearing to Translate,这是第一个全面的测试套件,严格地将5个最先进的SpeechLLM与16个强大的直接和级联系统进行基准测试,这些系统将领先的语音基础模型(SFM)与多语言LLM结合。我们的分析涵盖16个基准、13个语言对和9个具有挑战性的条件,包括口齿不清、嘈杂和长篇语音。通过这项广泛的评估,我们发现级联系统仍然是最可靠的,而当前的SpeechLLM仅在选定的设置中与级联系统相匹配,并且SFM落后于两者,这突出了集成LLM(无论是在模型内部还是在pipeline中)对于高质量语音翻译至关重要。

🔬 方法详解

问题定义:论文旨在解决语音翻译领域中,端到端SpeechLLM与传统级联系统孰优孰劣的问题。现有研究缺乏对两者的全面、系统的对比评估,难以判断SpeechLLM是否真正超越了级联架构。级联系统虽然成熟,但存在误差累积的问题,而端到端模型理论上可以避免这一问题,但实际效果有待验证。

核心思路:论文的核心思路是通过构建一个全面的测试套件,在多种具有挑战性的条件下,对最先进的SpeechLLM和级联系统进行严格的基准测试。通过对比两者的翻译质量,揭示SpeechLLM的优势与不足,为未来的研究方向提供指导。

技术框架:Hearing to Translate测试套件包含以下几个关键组成部分: 1. 数据集:涵盖16个基准,13个语言对,以及9种具有挑战性的条件,包括口齿不清、噪声和长篇语音。 2. 模型:评估了5个最先进的SpeechLLM,以及16个强大的直接和级联系统,这些系统结合了领先的语音基础模型(SFM)和多语言LLM。 3. 评估指标:采用标准的语音翻译评估指标,如BLEU,来衡量翻译质量。 4. 分析方法:对实验结果进行深入分析,比较不同模型在不同条件下的表现,找出影响翻译质量的关键因素。

关键创新:该论文的主要创新在于构建了首个全面的SpeechLLM测试套件,为语音翻译领域的研究提供了一个标准化的评估平台。通过对多种模型和条件的广泛测试,揭示了现有SpeechLLM的局限性,并指出了未来的研究方向。此外,论文还强调了集成LLM对于高质量语音翻译的重要性,无论是在模型内部还是在pipeline中。

关键设计:论文的关键设计在于测试套件的全面性和多样性。通过涵盖多种语言对、噪声条件和语音风格,确保了评估结果的可靠性和泛化能力。此外,论文还仔细选择了具有代表性的SpeechLLM和级联系统,以确保评估结果能够反映当前语音翻译领域的最新进展。具体的参数设置、损失函数、网络结构等技术细节取决于被评估的各个模型,论文主要关注的是整体性能的比较。

📊 实验亮点

实验结果表明,在16个基准测试中,级联系统在整体上仍然是最可靠的语音翻译方案。当前的SpeechLLM仅在特定的设置下能够与级联系统相媲美,而单独使用语音基础模型(SFM)的效果则明显落后。这表明,无论是将LLM集成到模型内部还是pipeline中,对于实现高质量的语音翻译至关重要。

🎯 应用场景

该研究成果可应用于语音翻译相关的多个领域,如国际会议同声传译、跨语言语音助手、多语言客服系统等。通过更准确的语音翻译,可以促进跨文化交流,提高沟通效率,并为全球化提供技术支持。未来的研究可以基于此评估框架,进一步优化SpeechLLM的性能,使其在更多场景下超越传统级联系统。

📄 摘要(原文)

As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.