Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space

📄 arXiv: 2606.01909v1 📥 PDF

作者: Louis Mouchon

分类: cs.SD, cs.AI, eess.AS

发布日期: 2026-06-01

备注: 18 pages, 17 tables, 1 figure. Proof-of-concept, independent research


💡 一句话要点

Echo:基于共享隐空间的联合嵌入预测架构,用于说话人分离和语音识别

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 说话人分离 语音识别 联合嵌入 多任务学习 ViT编码器

📋 核心要点

  1. 现有语音处理系统通常针对特定任务进行优化,缺乏通用性和效率,难以在资源受限的场景下部署。
  2. Echo通过联合嵌入预测架构,将说话人分离、语音识别和动态源分离集成到一个共享的隐空间中,实现多任务协同。
  3. 实验表明,Echo在合成数据集上取得了有竞争力的性能,验证了其在低资源条件下实现多任务语音处理的可行性。

📝 摘要(中文)

本文提出Echo,一个概念验证音频系统,其核心是一个2500万参数的ViT编码器。该编码器首先使用JEPA目标进行预训练,然后通过分阶段的方式,在同一个512维隐空间中携带说话人身份、音素内容和动态源路由信息,无需在部署时进行针对特定任务的微调。轻量级的头部网络处理说话人分离(ArcFace + VBx)和动态源分离(null-target K-set预测)。在具有未知K的合成VoxCeleb2混合语音数据集上,该系统达到了15.00%的盲分离错误率(DER),97.80%的PIT分离准确率,+9.52 dB的隐空间SI-SDR,以及在留出的k-NN探针上+53.50的分离说话人/内容因子差距。Echo的重点不在于在任何单一任务上取得新的SOTA,而在于以这种参数规模在一个编码器上实现三个任务的联合共存。本文档逐阶段记录了设计过程,报告了遇到的死胡同,并指出了通过VQ瓶颈进行端到端ASR的结构性障碍,这仍然限制了该概念验证。

🔬 方法详解

问题定义:论文旨在解决现有语音处理系统针对单一任务优化,通用性差,且多个任务需要多个模型的问题。现有方法通常需要针对每个任务进行单独训练和部署,导致资源消耗大,难以在边缘设备等资源受限的环境中使用。此外,如何有效地将不同任务的信息整合到一个统一的表示空间中也是一个挑战。

核心思路:论文的核心思路是利用联合嵌入预测架构(JEPA)预训练一个通用的ViT编码器,使其能够学习到语音信号的通用表示。然后,通过分阶段训练的方式,将说话人身份、音素内容和动态源路由信息编码到同一个隐空间中,从而实现多任务的联合处理。这种方法避免了针对每个任务单独训练模型的需求,提高了资源利用率和效率。

技术框架:Echo系统的整体架构包括以下几个主要模块:1) ViT编码器:使用JEPA目标进行预训练,学习语音信号的通用表示。2) 分阶段训练:逐步将说话人身份、音素内容和动态源路由信息编码到隐空间中。3) 说话人分离头部:使用ArcFace和VBx进行说话人分离。4) 动态源分离头部:使用null-target K-set预测进行动态源分离。5) 语音识别模块:通过VQ瓶颈进行端到端ASR(虽然是瓶颈)。

关键创新:论文的关键创新在于提出了一个基于联合嵌入预测架构的通用语音处理系统,该系统能够在一个共享的隐空间中同时处理说话人分离、语音识别和动态源分离三个任务。这种方法避免了针对每个任务单独训练模型的需求,提高了资源利用率和效率。此外,论文还探索了如何有效地将不同任务的信息整合到一个统一的表示空间中。

关键设计:论文的关键设计包括:1) 使用2500万参数的ViT编码器作为核心模块。2) 使用JEPA目标进行预训练,学习语音信号的通用表示。3) 使用ArcFace和VBx进行说话人分离。4) 使用null-target K-set预测进行动态源分离。5) 使用512维的隐空间来表示语音信号。6) 通过分阶段训练的方式,逐步将不同任务的信息编码到隐空间中。

📊 实验亮点

实验结果表明,Echo在合成VoxCeleb2混合语音数据集上取得了有竞争力的性能。具体来说,该系统达到了15.00%的盲分离错误率(DER),97.80%的PIT分离准确率,+9.52 dB的隐空间SI-SDR,以及在留出的k-NN探针上+53.50的分离说话人/内容因子差距。这些结果验证了Echo在低资源条件下实现多任务语音处理的可行性。

🎯 应用场景

Echo的潜在应用领域包括智能助手、会议记录、语音搜索和语音增强等。该研究的实际价值在于提供了一种高效的多任务语音处理解决方案,可以在资源受限的环境下实现多个语音任务的联合处理。未来,该研究可以进一步扩展到更多的语音任务,例如语音翻译和情感识别,从而构建一个更加通用的语音处理平台。

📄 摘要(原文)

We present Echo, a proof-of-concept audio system built around a single 25 M-parameter ViT encoder. The encoder is pretrained with a JEPA objective and then specialised by stages to carry speaker identity, phonetic content, and dynamic source routing in the same 512-dimensional latent space, with no per-task fine-tuning at deployment. Light heads handle diarization (ArcFace + VBx) and dynamic source separation (null-target K-set prediction). On synthetic VoxCeleb2 mixtures with unknown K, the canonical stack reaches 15.00% blind DER, 97.80% PIT separation accuracy with +9.52 dB latent SI-SDR, and a +53.50-point speaker/content factorisation gap on a held-out k-NN probe. The point of Echo is not a new SOTA on any single task but the joint coexistence of three tasks on one encoder at this footprint. We document the design stage by stage, report the dead-ends, and identify the structural wall on end-to-end ASR through the VQ bottleneck that still bounds the PoC.