HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

作者: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu

分类: cs.SD, cs.AI, eess.AS

发布日期: 2026-05-28

备注: 14 pages, 2 figures, 8 tables

🔗 代码/项目: GITHUB

💡 一句话要点

提出HoliTok：一种稳健的连续整体语音Token化模型，用于语音生成和理解

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音Token化 语音生成 语音理解 统一建模 自监督学习

📋 核心要点

现有语音Tokenizer难以兼顾高质量波形解码和语言模型学习，导致模型复杂度和训练难度增加。
HoliTok通过渐进式训练策略，在保持信号保真度的同时，融入语义信息，增强潜在表示的可学习性。
实验表明，HoliTok在语音合成和识别任务中表现出色，无需额外优化即可在统一架构中稳定运行。

📝 摘要（中文）

统一语音基础模型需要一个整体的token化空间，该空间既能被语言模型学习，又能解码成高质量的波形。然而，现有的语音tokenizers通常无法同时满足这些要求，导致架构复杂性增加和训练设计更加复杂。我们提出了HoliTok，一种连续的整体语音Token化模型，专为统一生成-理解建模而设计。HoliTok将48kHz的语音编码成一个紧凑的25Hz、128维的潜在序列。它采用渐进式策略进行训练，该策略共同保持信号级保真度，整合语义信息，并保持强大的潜在可学习性。基于这种token化，我们构建了一个统一的AR+DiT模型，用于语音合成和识别，其中相同的潜在序列支持特定于生成的任务和统一的生成-理解任务。实验表明，HoliTok实现了具有竞争力的重建保真度，提高了高质量和可控合成的生成可学习性，并且在评估的表示中，是唯一一个在我们统一的生成-理解架构中稳健运行而无需额外优化技巧的表示。这些结果表明，HoliTok是一种有效的语音tokenizer，也是统一语音语言建模的基础表示接口。代码可在https://github.com/bovod-sjtu/HoliTok获取。

🔬 方法详解

问题定义：现有语音Tokenizers在统一语音生成和理解任务中面临挑战，难以同时保证高质量的波形重建和良好的语言模型学习能力。这导致需要更复杂的模型架构和训练策略，增加了开发和部署的难度。现有方法通常需要在生成和理解之间进行权衡，无法实现真正的统一建模。

核心思路：HoliTok的核心思路是设计一种连续的、整体的语音Token化方法，将语音信号编码成一个紧凑的、易于学习的潜在表示。通过渐进式训练，模型能够同时保留信号级的细节、捕捉语义信息，并保持良好的可学习性。这种设计旨在创建一个通用的表示空间，可以同时支持语音生成和理解任务，从而实现真正的统一建模。

技术框架：HoliTok的整体框架包括一个编码器，将原始语音信号转换为潜在表示序列；以及一个解码器，将潜在表示序列重建为语音信号。模型采用自回归（AR）模型和扩散模型（DiT）相结合的架构，用于语音合成和识别。训练过程采用渐进式策略，首先关注信号重建的保真度，然后逐步引入语义信息，最后优化潜在表示的可学习性。

关键创新：HoliTok的关键创新在于其连续的、整体的Token化方法，以及渐进式的训练策略。与离散的Token化方法相比，连续的表示能够更好地保留语音信号的细节信息。渐进式训练策略能够有效地平衡信号保真度、语义信息和可学习性，从而获得更鲁棒的潜在表示。此外，HoliTok是少数几个能够在统一的生成-理解架构中稳定运行而无需额外优化技巧的语音Tokenizer。

关键设计：HoliTok将48kHz的语音编码成25Hz的128维潜在序列。编码器和解码器采用卷积神经网络（CNN）结构。渐进式训练策略包括三个阶段：第一阶段关注信号重建损失，第二阶段引入对比学习损失以捕捉语义信息，第三阶段优化潜在表示的KL散度，以提高其可学习性。AR模型采用Transformer结构，DiT模型采用基于扩散概率模型的架构。

🖼️ 关键图片

📊 实验亮点

HoliTok在语音重建任务中取得了具有竞争力的保真度。在语音合成任务中，HoliTok提高了生成模型的可学习性，实现了高质量和可控的语音合成。最重要的是，HoliTok是唯一一个在统一的生成-理解架构中稳健运行而无需额外优化技巧的表示，证明了其优越的通用性和鲁棒性。

🎯 应用场景

HoliTok可应用于语音合成、语音识别、语音翻译等领域。其统一的表示空间能够简化多任务学习的流程，降低模型开发的成本。该研究对于开发更高效、更通用的语音处理系统具有重要意义，并有望推动人机交互技术的进步。

📄 摘要（原文）

Unified speech foundation models require a holistic tokenization space that is both learnable by language models and decodable into high-quality waveforms. Existing speech tokenizers, however, often fail to satisfy these requirements simultaneously, leading to increased architectural complexity and more involved training designs. We propose HoliTok, a continuous Holistic speech Tokenization model designed for unified generation-understanding modeling. HoliTok encodes 48~kHz speech into a compact 25~Hz sequence of 128-dimensional latents. It is trained with a progressive strategy that jointly preserves signal-level fidelity, incorporates semantic information, and maintains strong latent learnability. Based on this tokenization, we build a unified AR+DiT model for speech synthesis and recognition, where the same latent sequence supports both generation-specific and unified generation-understanding tasks. Experiments show that HoliTok achieves competitive reconstruction fidelity, improves generative learnability for high-quality and controllable synthesis, and, among the evaluated representations, is the only one that operates robustly in our unified generation-understanding architecture without additional optimization tricks. These results suggest that HoliTok serves as an effective speech tokenizer and a foundational representation interface for unified spoken language modeling. The code is available at: https://github.com/bovod-sjtu/HoliTok.

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理