HITSZ's End-To-End Speech Translation Systems Combining Sequence-to-Sequence Auto Speech Recognition Model and Indic Large Language Model for IWSLT 2025 in Indic Track

作者: Xuchen Wei, Yangxin Wu, Yaoyin Zhang, Henglyu Liu, Kehai Chen, Xuefeng Bai, Min Zhang

分类: cs.CL

发布日期: 2025-07-25

备注: 7 pages, 1 figure, submitted to IWSLT 2025

💡 一句话要点

结合Whisper ASR与Indic LLM，HITSZ提出IWSLT 2025 Indic赛道端到端语音翻译系统

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音翻译 端到端系统 低资源语言 自动语音识别 大型语言模型 Whisper Krutrim

📋 核心要点

低资源语音翻译面临数据稀缺挑战，现有方法难以保证翻译质量。
利用预训练Whisper ASR模型和Indic专用Krutrim LLM，构建端到端翻译系统。
实验表明，该系统在英-Indic和Indic-英翻译上取得了显著BLEU提升，但CoT格式控制仍需改进。

📝 摘要（中文）

本文介绍了HITSZ为IWSLT 2025 Indic赛道提交的语音到文本翻译（ST）系统，专注于英语到Indic语和Indic语到英语的语言对。为了提高这种低资源场景下的翻译质量，我们提出了一个端到端系统，该系统集成了预训练的Whisper自动语音识别（ASR）模型和Krutrim，一个专门针对Indic语言的大型语言模型（LLM）。实验结果表明，我们的端到端系统在英语到Indic语方向上实现了平均28.88的BLEU分数，在Indic语到英语方向上实现了平均27.86的BLEU分数。此外，我们还研究了思维链（CoT）方法。虽然该方法在成功解析的输出上显示出显著提高翻译质量的潜力（例如，泰米尔语到英语的BLEU值提高了13.84），但我们观察到在确保模型始终遵循所需的CoT输出格式方面存在挑战。

🔬 方法详解

问题定义：论文旨在解决低资源场景下英语和Indic语之间的语音翻译问题。现有方法在低资源环境下表现不佳，翻译质量难以保证，尤其是在处理复杂或口语化的语音输入时，准确率会显著下降。

核心思路：论文的核心思路是利用预训练模型的知识迁移能力，结合自动语音识别（ASR）和大型语言模型（LLM）的优势，构建一个端到端语音翻译系统。通过Whisper ASR模型提取语音特征并转换为文本，然后利用Krutrim LLM进行翻译，从而提高翻译质量。

技术框架：该系统采用端到端架构，主要包含两个模块：预训练的Whisper ASR模型和Indic专用Krutrim LLM。首先，Whisper ASR模型将输入的语音信号转换为文本序列。然后，Krutrim LLM接收ASR的输出，并将其翻译成目标语言。此外，论文还探索了Chain-of-Thought (CoT) 方法，试图通过引入中间推理步骤来提高翻译质量。

关键创新：该论文的关键创新在于将通用的预训练语音识别模型Whisper与特定于Indic语言的大型语言模型Krutrim相结合，从而在低资源场景下实现了较好的翻译效果。此外，探索了CoT方法在语音翻译中的应用，虽然CoT方法本身不是创新，但将其应用于该场景并分析其有效性具有一定的价值。

关键设计：在实验中，作者使用了预训练的Whisper模型，并针对特定的Indic语言进行了微调。Krutrim LLM则直接用于翻译任务，没有进行额外的训练。CoT方法的实现依赖于特定的prompt设计，需要确保模型能够生成符合要求的中间推理步骤。损失函数主要采用交叉熵损失，用于优化ASR和LLM的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该端到端系统在英语到Indic语方向上实现了平均28.88的BLEU分数，在Indic语到英语方向上实现了平均27.86的BLEU分数。CoT方法在成功解析的输出上显示出显著提高翻译质量的潜力，例如，泰米尔语到英语的BLEU值提高了13.84。这些结果表明，该系统在低资源语音翻译任务中具有较强的竞争力。

🎯 应用场景

该研究成果可应用于多语言语音助手、实时语音翻译软件、跨境电商等领域，尤其是在印度等Indic语种使用广泛的地区具有重要的应用价值。未来，该技术有望促进不同语言文化之间的交流，并为低资源语言的保护和发展做出贡献。

📄 摘要（原文）

This paper presents HITSZ's submission for the IWSLT 2025 Indic track, focusing on speech-to-text translation (ST) for English-to-Indic and Indic-to-English language pairs. To enhance translation quality in this low-resource scenario, we propose an end-to-end system integrating the pre-trained Whisper automated speech recognition (ASR) model with Krutrim, an Indic-specialized large language model (LLM). Experimental results demonstrate that our end-to-end system achieved average BLEU scores of $28.88$ for English-to-Indic directions and $27.86$ for Indic-to-English directions. Furthermore, we investigated the Chain-of-Thought (CoT) method. While this method showed potential for significant translation quality improvements on successfully parsed outputs (e.g. a $13.84$ BLEU increase for Tamil-to-English), we observed challenges in ensuring the model consistently adheres to the required CoT output format.

HITSZ's End-To-End Speech Translation Systems Combining Sequence-to-Sequence Auto Speech Recognition Model and Indic Large Language Model for IWSLT 2025 in Indic Track

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理