Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation

作者: Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Ming Liu, Bing Qin, Yang Xiang

分类: cs.AI

发布日期: 2026-05-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出ESRT边缘云协同框架，解决语音翻译中的隐私、带宽和语言偏见问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音翻译 边缘计算 多模态学习 隐私保护 带宽优化 多语言模型 课程学习

📋 核心要点

现有语音翻译模型面临设备资源限制、隐私泄露风险和带宽瓶颈等问题，阻碍了多语言场景的应用。
ESRT框架通过边缘端语音编码和云端翻译，仅传输压缩特征，降低带宽需求并保护用户隐私。
采用多任务加权课程学习和数据平衡策略，有效缓解了模型对英语的偏见，提升了跨语言翻译的鲁棒性。

📝 摘要（中文）

多模态大型语言模型(MLLM)在语音到文本翻译(S2TT)方面展现出巨大潜力。然而，现有的部署模式面临严峻挑战：纯设备端模型受资源限制，而集中式云系统通过传输原始语音数据带来严重的隐私风险和带宽瓶颈。此外，大多数模型表现出以英语为中心的偏见，限制了多对多翻译的扩展。本文提出边缘云语音识别和翻译(ESRT)，这是一个保护隐私和带宽高效的协同边缘云MLLM框架。具体来说，我们设计了一种边缘云分离推理架构，该架构在设备上保留了一个轻量级的语音编码器和适配器，仅将高度压缩的中间特征传输到云端。这从根本上防止了声纹泄露，并将带宽需求降低了高达10倍。为了克服以英语为中心的瓶颈，我们引入了一种多任务加权课程学习策略，通过数据平衡来确保强大的跨语言一致性。在FLEURS数据集上的大量实验表明，我们的模型ESRT-4B和ESRT-12B在45种语言（45×44个方向）上实现了最先进的多对多S2TT性能。代码和模型已发布，以促进可复现的、具有隐私意识的MLLM S2TT研究。

🔬 方法详解

问题定义：论文旨在解决多对多语音翻译中存在的三个主要问题：一是设备端资源受限，无法部署大型模型；二是直接上传原始语音数据到云端存在隐私泄露风险；三是现有模型通常以英语为中心，导致其他语言的翻译效果不佳。现有方法要么依赖本地算力，效果受限，要么牺牲用户隐私，且难以实现真正的多语言支持。

核心思路：论文的核心思路是边缘-云协同推理，将语音处理任务分解为边缘端的轻量级特征提取和云端的复杂翻译。边缘端负责提取语音特征并进行压缩，仅将压缩后的特征上传到云端，从而降低带宽需求并保护用户隐私。同时，采用多任务学习和数据平衡策略，提升模型在多种语言上的翻译性能，克服英语中心偏见。

技术框架：ESRT框架包含边缘端和云端两个主要部分。边缘端部署轻量级的语音编码器和适配器，负责提取语音特征并进行压缩。云端部署大型多模态语言模型，负责将接收到的压缩特征翻译成目标语言文本。边缘端和云端通过网络连接，实现协同推理。整个流程包括：1. 语音输入；2. 边缘端特征提取和压缩；3. 特征传输；4. 云端翻译；5. 文本输出。

关键创新：论文的关键创新在于边缘-云协同推理架构和多任务加权课程学习策略。边缘-云协同推理架构通过在边缘端进行特征提取和压缩，有效降低了带宽需求并保护了用户隐私。多任务加权课程学习策略通过数据平衡和任务权重调整，有效缓解了模型对英语的偏见，提升了跨语言翻译的鲁棒性。

关键设计：边缘端语音编码器采用轻量级网络结构，以降低计算复杂度。压缩算法采用量化和编码技术，以减少数据传输量。多任务加权课程学习策略中，任务权重根据语言的资源丰富程度进行调整，资源较少的语言赋予更高的权重。损失函数采用交叉熵损失，并加入正则化项，以防止过拟合。

🖼️ 关键图片

📊 实验亮点

ESRT-4B和ESRT-12B模型在FLEURS数据集上取得了state-of-the-art的多对多语音翻译性能，支持45种语言之间的互译（45×44个方向）。通过边缘-云协同推理，带宽需求降低了高达10倍，有效保护了用户隐私。多任务加权课程学习策略显著提升了模型在非英语语言上的翻译效果。

🎯 应用场景

ESRT框架可应用于各种需要语音翻译的场景，如国际会议、在线教育、跨境电商、智能客服等。该研究的实际价值在于提供了一种保护隐私、节省带宽且支持多语言的语音翻译解决方案，有助于推动全球范围内的跨语言交流和合作。未来，该技术可进一步应用于低资源语言的语音翻译，促进语言多样性的保护和发展。

📄 摘要（原文）

Multimodal large language models (MLLMs) have demonstrated significant potential for speech-to-text translation (S2TT). However, existing deployment paradigms face critical challenges: pure on-device models suffer from resource constraints, while centralized cloud systems incur severe privacy risks and bandwidth bottlenecks by transmitting raw voice data. Furthermore, most models exhibit English-centric biases, restricting many-to-many translation scaling. In this paper, we propose Edge-cloud Speech Recognition and Translation (ESRT), a privacy-preserving and bandwidth-efficient collaborative edge-cloud MLLM framework. Specifically, we design an edge-cloud split inference architecture that retains a lightweight speech encoder and adapter on the device, transmitting only highly compressed intermediate features to the cloud. This fundamentally prevents voiceprint leakage and reduces bandwidth requirements by up to 10$\times$. To overcome English-centric bottlenecks, we introduce a multi-task weighted curriculum learning strategy with data balancing to ensure robust cross-lingual consistency. Extensive experiments on the FLEURS dataset demonstrate that our models, ESRT-4B and ESRT-12B, achieve state-of-the-art many-to-many S2TT performance across 45 languages ($45 \times 44$ directions). Code and models are released to facilitate reproducible, privacy-aware MLLM S2TT research. The code and models are released at https://github.com/yxduir/esrt.

Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理