PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs

作者: Jing Xu, Jiaqi Wang, Daxin Tan, Xiao Chen

分类: cs.CL

发布日期: 2026-01-23

备注: Accepted by ICASSP 2026

💡 一句话要点

PROST-LLM：渐进式提升大语言模型语音到语音翻译能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音到语音翻译 大语言模型 渐进式学习 偏好优化 自采样 回译 三任务学习

📋 核心要点

现有S2ST方法在大语言模型上的应用受限于数据稀缺，模型能力难以充分发挥。
PROST-LLM通过微调、自采样和偏好优化，渐进式提升LLM的语音到语音翻译能力。
实验表明，PROST-LLM能有效提升LLM的S2ST性能，验证了该方法的有效性。

📝 摘要（中文）

大型语言模型（LLMs）在许多任务中表现出色，但它们在语音到语音翻译（S2ST）中的应用尚未被充分探索，并且受到数据稀缺的限制。为了弥合这一差距，我们提出了PROST-LLM（PROgressive Speech-to-speech Translation），以渐进式地增强LLMs的S2ST能力。首先，我们使用CVSS语料库对LLMs进行微调，采用设计的三任务学习和模态链方法来提高初始性能。然后，利用微调后的模型，我们通过自采样和回译生成偏好对，无需人工评估。最后，这些偏好对用于偏好优化，以进一步增强模型的S2ST能力。大量的实验证实了我们提出的PROST-LLM在提高LLMs的S2ST能力方面的有效性。

🔬 方法详解

问题定义：论文旨在解决大语言模型在语音到语音翻译（S2ST）任务中，由于数据稀缺导致的性能瓶颈问题。现有方法难以有效利用LLM的强大能力，S2ST效果不佳。

核心思路：论文的核心思路是通过渐进式训练策略，逐步提升LLM的S2ST能力。首先利用现有数据进行初步微调，然后通过自采样和回译生成更多训练数据，最后使用偏好优化进一步提升模型性能。这种渐进式的方法旨在克服数据稀缺的挑战，充分挖掘LLM的潜力。

技术框架：PROST-LLM的整体框架包含三个主要阶段：1) 初始微调：使用CVSS语料库，采用三任务学习（例如，语音识别、文本翻译、语音合成）和模态链方法进行微调，提升模型初始性能。2) 偏好数据生成：利用微调后的模型，通过自采样和回译技术自动生成偏好对，无需人工标注。3) 偏好优化：使用生成的偏好对，通过偏好优化算法（例如，Direct Preference Optimization, DPO）进一步提升模型的S2ST能力。

关键创新：该方法最重要的创新点在于利用自采样和回译技术自动生成偏好数据，从而避免了人工标注的成本和困难。此外，渐进式的训练策略也使得模型能够逐步适应S2ST任务，避免了直接训练带来的不稳定性和性能下降。

关键设计：在初始微调阶段，三任务学习的具体任务选择和权重设置，以及模态链的具体实现方式（例如，语音识别->文本翻译->语音合成）是关键设计。在偏好数据生成阶段，自采样的采样策略（例如，温度系数）和回译的具体模型选择会影响生成数据的质量。在偏好优化阶段，偏好优化算法的选择（例如，DPO）和超参数设置（例如，学习率）会影响最终的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PROST-LLM能够显著提升LLM的S2ST性能。相较于直接在LLM上进行S2ST训练，PROST-LLM在BLEU等指标上取得了显著提升。具体提升幅度取决于所使用的LLM和数据集，但整体趋势表明PROST-LLM是一种有效的S2ST能力提升方法。

🎯 应用场景

PROST-LLM具有广泛的应用前景，例如：实时跨语言交流、国际会议同声传译、多语言语音助手、以及面向语言障碍人士的辅助沟通工具。该研究有助于打破语言障碍，促进全球范围内的信息交流和文化融合，具有重要的社会价值和商业潜力。

📄 摘要（原文）

Although Large Language Models (LLMs) excel in many tasks, their application to Speech-to-Speech Translation (S2ST) is underexplored and hindered by data scarcity. To bridge this gap, we propose PROST-LLM (PROgressive Speech-to-speech Translation) to enhance the S2ST capabilities in LLMs progressively. First, we fine-tune the LLMs with the CVSS corpus, employing designed tri-task learning and chain of modality methods to boost the initial performance. Then, leveraging the fine-tuned model, we generate preference pairs through self-sampling and back-translation without human evaluation. Finally, these preference pairs are used for preference optimization to enhance the model's S2ST capability further. Extensive experiments confirm the effectiveness of our proposed PROST-LLM in improving the S2ST capability of LLMs.

PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理