HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

📄 arXiv: 2606.06743v1 📥 PDF

作者: Arjun Gangwar, S Umesh

分类: cs.SD, cs.AI, cs.CL

发布日期: 2026-06-04

备注: 5 pages, 5 tables, 1 figure, Accepted at Interspeech 2026


💡 一句话要点

提出HybridCodec以解决音频编码中的语义信息引入问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经音频编码 语义信息 声学特征 多模态模型 模型推理 SSL表示 音频处理

📋 核心要点

  1. 现有音频编码方法在引入语义信息时面临解耦不足和推理效率低的问题。
  2. HybridCodec通过结合独立的语义和声学分支,同时提炼SSL表示,提供了一种新的解决方案。
  3. 实验结果表明,HybridCodec在领域内测试集上实现了优越的语义专业化,并在重建质量上具有竞争力。

📝 摘要(中文)

随着多模态大语言模型的兴起,神经音频编码器作为语音标记器的受欢迎程度显著上升。新型编码架构通过语义和声学的解耦来引入语义信息。现有方法主要有两种:一种是将SSL表示的语义信息提炼到第一个RVQ层,另一种是为语义和声学特征保持独立流。我们提出了HybridCodec,这是一种统一架构,结合了这两种范式。它采用独立的语义和声学分支,同时将SSL表示提炼到语义流中。这一设计确保了强大的解耦能力,而在推理时不需要SSL模型。HybridCodec在领域内测试集上显示出优越的语义专业化(RVQ-1)和竞争性的重建能力(RVQ-all)。我们展示了其在领域外和零样本跨语言设置中的鲁棒性,实现了比现有双流模型快3倍的速度提升。

🔬 方法详解

问题定义:本论文旨在解决音频编码中语义信息引入的有效性与推理效率问题。现有方法在解耦语义与声学特征时存在不足,导致推理时需要依赖SSL模型,降低了效率。

核心思路:HybridCodec的核心思想是结合独立的语义和声学分支,同时将SSL表示提炼到语义流中。这种设计确保了语义与声学特征的强解耦,同时在推理时不再依赖SSL模型,从而提高了效率。

技术框架:HybridCodec的整体架构包括两个主要分支:一个用于处理声学特征,另一个用于处理语义特征。语义分支通过提炼SSL表示来增强语义信息的表达能力。

关键创新:HybridCodec的主要创新在于其独特的双流架构,既保持了语义与声学特征的独立性,又通过SSL表示的提炼实现了语义信息的有效引入。这与现有方法的单一流设计形成了显著对比。

关键设计:在设计中,HybridCodec采用了特定的损失函数来优化语义与声学特征的解耦,同时在网络结构上确保了两个分支的高效协同。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,HybridCodec在领域内测试集上实现了优越的语义专业化(RVQ-1),同时在重建质量(RVQ-all)上表现出竞争力。此外,该模型在领域外和零样本跨语言设置中展现出鲁棒性,相较于现有双流模型实现了3倍的速度提升。

🎯 应用场景

HybridCodec在语音识别、语音合成和跨语言音频处理等领域具有广泛的应用潜力。其高效的语义信息处理能力和快速推理性能,使其在多模态交互和实时语音应用中展现出重要的实际价值,未来可能推动音频处理技术的进一步发展。

📄 摘要(原文)

The popularity of neural audio codecs as speech tokenizers has surged with the advent of Multimodal Large Language Models. New codec architectures with semantic and acoustic disentanglement have emerged. There are two main approaches to introduce semantic information into codec models: one distills semantic information from SSL representations into the first RVQ layer, while the other maintains separate streams for semantic and acoustic features. We propose HybridCodec, a unified architecture that combines both paradigms. It employs separate semantic and acoustic branches while distilling SSL representations into the semantic stream. This design ensures strong disentanglement without requiring an SSL model during inference. HybridCodec shows superior semantic specialization (RVQ-1) on in-domain test set and competitive reconstruction (RVQ-all). We demonstrate its robustness in out-of-domain and zero-shot cross-lingual settings, achieving a 3x speedup over existing dual-stream models.