HITSZ's End-To-End Speech Translation Systems Combining Sequence-to-Sequence Auto Speech Recognition Model and Indic Large Language Model for IWSLT 2025 in Indic Track
作者: Xuchen Wei, Yangxin Wu, Yaoyin Zhang, Henglyu Liu, Kehai Chen, Xuefeng Bai, Min Zhang
分类: cs.CL
发布日期: 2025-07-25
备注: 7 pages, 1 figure, submitted to IWSLT 2025
💡 一句话要点
结合Whisper ASR与Indic LLM,HITSZ提出IWSLT 2025 Indic赛道端到端语音翻译系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音翻译 端到端系统 低资源语言 自动语音识别 大型语言模型 Whisper Krutrim
📋 核心要点
- 低资源语音翻译面临数据稀缺挑战,现有方法难以保证翻译质量。
- 利用预训练Whisper ASR模型和Indic专用Krutrim LLM,构建端到端翻译系统。
- 实验表明,该系统在英-Indic和Indic-英翻译上取得了显著BLEU提升,但CoT格式控制仍需改进。
📝 摘要(中文)
本文介绍了HITSZ为IWSLT 2025 Indic赛道提交的语音到文本翻译(ST)系统,专注于英语到Indic语和Indic语到英语的语言对。为了提高这种低资源场景下的翻译质量,我们提出了一个端到端系统,该系统集成了预训练的Whisper自动语音识别(ASR)模型和Krutrim,一个专门针对Indic语言的大型语言模型(LLM)。实验结果表明,我们的端到端系统在英语到Indic语方向上实现了平均28.88的BLEU分数,在Indic语到英语方向上实现了平均27.86的BLEU分数。此外,我们还研究了思维链(CoT)方法。虽然该方法在成功解析的输出上显示出显著提高翻译质量的潜力(例如,泰米尔语到英语的BLEU值提高了13.84),但我们观察到在确保模型始终遵循所需的CoT输出格式方面存在挑战。
🔬 方法详解
问题定义:论文旨在解决低资源场景下英语和Indic语之间的语音翻译问题。现有方法在低资源环境下表现不佳,翻译质量难以保证,尤其是在处理复杂或口语化的语音输入时,准确率会显著下降。
核心思路:论文的核心思路是利用预训练模型的知识迁移能力,结合自动语音识别(ASR)和大型语言模型(LLM)的优势,构建一个端到端语音翻译系统。通过Whisper ASR模型提取语音特征并转换为文本,然后利用Krutrim LLM进行翻译,从而提高翻译质量。
技术框架:该系统采用端到端架构,主要包含两个模块:预训练的Whisper ASR模型和Indic专用Krutrim LLM。首先,Whisper ASR模型将输入的语音信号转换为文本序列。然后,Krutrim LLM接收ASR的输出,并将其翻译成目标语言。此外,论文还探索了Chain-of-Thought (CoT) 方法,试图通过引入中间推理步骤来提高翻译质量。
关键创新:该论文的关键创新在于将通用的预训练语音识别模型Whisper与特定于Indic语言的大型语言模型Krutrim相结合,从而在低资源场景下实现了较好的翻译效果。此外,探索了CoT方法在语音翻译中的应用,虽然CoT方法本身不是创新,但将其应用于该场景并分析其有效性具有一定的价值。
关键设计:在实验中,作者使用了预训练的Whisper模型,并针对特定的Indic语言进行了微调。Krutrim LLM则直接用于翻译任务,没有进行额外的训练。CoT方法的实现依赖于特定的prompt设计,需要确保模型能够生成符合要求的中间推理步骤。损失函数主要采用交叉熵损失,用于优化ASR和LLM的参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该端到端系统在英语到Indic语方向上实现了平均28.88的BLEU分数,在Indic语到英语方向上实现了平均27.86的BLEU分数。CoT方法在成功解析的输出上显示出显著提高翻译质量的潜力,例如,泰米尔语到英语的BLEU值提高了13.84。这些结果表明,该系统在低资源语音翻译任务中具有较强的竞争力。
🎯 应用场景
该研究成果可应用于多语言语音助手、实时语音翻译软件、跨境电商等领域,尤其是在印度等Indic语种使用广泛的地区具有重要的应用价值。未来,该技术有望促进不同语言文化之间的交流,并为低资源语言的保护和发展做出贡献。
📄 摘要(原文)
This paper presents HITSZ's submission for the IWSLT 2025 Indic track, focusing on speech-to-text translation (ST) for English-to-Indic and Indic-to-English language pairs. To enhance translation quality in this low-resource scenario, we propose an end-to-end system integrating the pre-trained Whisper automated speech recognition (ASR) model with Krutrim, an Indic-specialized large language model (LLM). Experimental results demonstrate that our end-to-end system achieved average BLEU scores of $28.88$ for English-to-Indic directions and $27.86$ for Indic-to-English directions. Furthermore, we investigated the Chain-of-Thought (CoT) method. While this method showed potential for significant translation quality improvements on successfully parsed outputs (e.g. a $13.84$ BLEU increase for Tamil-to-English), we observed challenges in ensuring the model consistently adheres to the required CoT output format.