HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

📄 arXiv: 2605.29948v1 📥 PDF

作者: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu

分类: cs.SD, cs.AI, eess.AS

发布日期: 2026-05-28

备注: 14 pages, 2 figures, 8 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出HoliTok:一种稳健的连续整体语音Token化模型,用于语音生成和理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音Token化 语音生成 语音理解 统一建模 自监督学习

📋 核心要点

  1. 现有语音Tokenizer难以兼顾高质量波形解码和语言模型学习,导致模型复杂度和训练难度增加。
  2. HoliTok通过渐进式训练策略,在保持信号保真度的同时,融入语义信息,增强潜在表示的可学习性。
  3. 实验表明,HoliTok在语音合成和识别任务中表现出色,无需额外优化即可在统一架构中稳定运行。

📝 摘要(中文)

统一语音基础模型需要一个整体的token化空间,该空间既能被语言模型学习,又能解码成高质量的波形。然而,现有的语音tokenizers通常无法同时满足这些要求,导致架构复杂性增加和训练设计更加复杂。我们提出了HoliTok,一种连续的整体语音Token化模型,专为统一生成-理解建模而设计。HoliTok将48kHz的语音编码成一个紧凑的25Hz、128维的潜在序列。它采用渐进式策略进行训练,该策略共同保持信号级保真度,整合语义信息,并保持强大的潜在可学习性。基于这种token化,我们构建了一个统一的AR+DiT模型,用于语音合成和识别,其中相同的潜在序列支持特定于生成的任务和统一的生成-理解任务。实验表明,HoliTok实现了具有竞争力的重建保真度,提高了高质量和可控合成的生成可学习性,并且在评估的表示中,是唯一一个在我们统一的生成-理解架构中稳健运行而无需额外优化技巧的表示。这些结果表明,HoliTok是一种有效的语音tokenizer,也是统一语音语言建模的基础表示接口。代码可在https://github.com/bovod-sjtu/HoliTok获取。

🔬 方法详解

问题定义:现有语音Tokenizers在统一语音生成和理解任务中面临挑战,难以同时保证高质量的波形重建和良好的语言模型学习能力。这导致需要更复杂的模型架构和训练策略,增加了开发和部署的难度。现有方法通常需要在生成和理解之间进行权衡,无法实现真正的统一建模。

核心思路:HoliTok的核心思路是设计一种连续的、整体的语音Token化方法,将语音信号编码成一个紧凑的、易于学习的潜在表示。通过渐进式训练,模型能够同时保留信号级的细节、捕捉语义信息,并保持良好的可学习性。这种设计旨在创建一个通用的表示空间,可以同时支持语音生成和理解任务,从而实现真正的统一建模。

技术框架:HoliTok的整体框架包括一个编码器,将原始语音信号转换为潜在表示序列;以及一个解码器,将潜在表示序列重建为语音信号。模型采用自回归(AR)模型和扩散模型(DiT)相结合的架构,用于语音合成和识别。训练过程采用渐进式策略,首先关注信号重建的保真度,然后逐步引入语义信息,最后优化潜在表示的可学习性。

关键创新:HoliTok的关键创新在于其连续的、整体的Token化方法,以及渐进式的训练策略。与离散的Token化方法相比,连续的表示能够更好地保留语音信号的细节信息。渐进式训练策略能够有效地平衡信号保真度、语义信息和可学习性,从而获得更鲁棒的潜在表示。此外,HoliTok是少数几个能够在统一的生成-理解架构中稳定运行而无需额外优化技巧的语音Tokenizer。

关键设计:HoliTok将48kHz的语音编码成25Hz的128维潜在序列。编码器和解码器采用卷积神经网络(CNN)结构。渐进式训练策略包括三个阶段:第一阶段关注信号重建损失,第二阶段引入对比学习损失以捕捉语义信息,第三阶段优化潜在表示的KL散度,以提高其可学习性。AR模型采用Transformer结构,DiT模型采用基于扩散概率模型的架构。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

HoliTok在语音重建任务中取得了具有竞争力的保真度。在语音合成任务中,HoliTok提高了生成模型的可学习性,实现了高质量和可控的语音合成。最重要的是,HoliTok是唯一一个在统一的生成-理解架构中稳健运行而无需额外优化技巧的表示,证明了其优越的通用性和鲁棒性。

🎯 应用场景

HoliTok可应用于语音合成、语音识别、语音翻译等领域。其统一的表示空间能够简化多任务学习的流程,降低模型开发的成本。该研究对于开发更高效、更通用的语音处理系统具有重要意义,并有望推动人机交互技术的进步。

📄 摘要(原文)

Unified speech foundation models require a holistic tokenization space that is both learnable by language models and decodable into high-quality waveforms. Existing speech tokenizers, however, often fail to satisfy these requirements simultaneously, leading to increased architectural complexity and more involved training designs. We propose HoliTok, a continuous Holistic speech Tokenization model designed for unified generation-understanding modeling. HoliTok encodes 48~kHz speech into a compact 25~Hz sequence of 128-dimensional latents. It is trained with a progressive strategy that jointly preserves signal-level fidelity, incorporates semantic information, and maintains strong latent learnability. Based on this tokenization, we build a unified AR+DiT model for speech synthesis and recognition, where the same latent sequence supports both generation-specific and unified generation-understanding tasks. Experiments show that HoliTok achieves competitive reconstruction fidelity, improves generative learnability for high-quality and controllable synthesis, and, among the evaluated representations, is the only one that operates robustly in our unified generation-understanding architecture without additional optimization tricks. These results suggest that HoliTok serves as an effective speech tokenizer and a foundational representation interface for unified spoken language modeling. The code is available at: https://github.com/bovod-sjtu/HoliTok.