VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing
作者: Chunyu Qiang, Wang Geng, Yi Zhao, Ruibo Fu, Tao Wang, Cheng Gong, Tianrui Wang, Qiuyu Liu, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Hao Che, Longbiao Wang, Jianwu Dang, Jianhua Tao
分类: eess.AS, cs.AI, cs.CL, cs.SD
发布日期: 2024-08-11 (更新: 2025-05-28)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出VQ-CTAP,用于语音处理中跨模态细粒度序列表示学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨模态学习 语音处理 序列表示学习 向量量化 对比学习
📋 核心要点
- 现有跨模态语音处理方法难以在帧级别对齐文本和语音,忽略了细粒度语义信息。
- VQ-CTAP通过跨模态对齐的序列转录器,将文本和语音映射到联合多模态空间,实现帧级别的连接。
- VQ-CTAP无需微调即可应用于VC和ASR任务,并能以高压缩率进行语音编码,同时提升了模型泛化能力。
📝 摘要(中文)
深度学习显著提升了跨模态表示学习的性能。对于文本到语音(TTS)、语音转换(VC)和自动语音识别(ASR)等任务,需要一种跨模态的细粒度(帧级别)序列表示,它强调文本模态的语义内容,同时弱化语音模态的副语言信息。我们提出了一种名为“向量量化对比Token-Acoustic预训练(VQ-CTAP)”的方法,该方法使用跨模态对齐的序列转录器将文本和语音带入联合多模态空间,学习如何在帧级别连接文本和语音。所提出的VQ-CTAP是跨模态序列表示学习的一种范例,为语音处理中的细粒度生成和识别任务提供了一种有前景的解决方案。VQ-CTAP可以直接应用于VC和ASR任务,无需微调或额外的结构。我们提出了一种序列感知的语义连接器,它连接多个冻结的预训练模块,用于TTS任务,展示了即插即用的能力。我们设计了一种步进优化策略,通过逐步注入和调整各种损失分量的影响,以确保有效的模型收敛。此外,我们提出了一种语义迁移式的副语言一致性损失,以增强表示能力,使模型更好地泛化到未见过的数据并捕获副语言信息的细微差别。此外,VQ-CTAP实现了高压缩语音编码,从24kHz输入波形以25Hz的速率进行编码,采样率降低了960倍。
🔬 方法详解
问题定义:论文旨在解决跨模态语音处理任务中,如何学习细粒度的序列表示的问题。现有方法通常难以在帧级别对齐文本和语音,导致模型无法充分利用文本的语义信息,并且对语音中的副语言信息处理不足。这限制了模型在TTS、VC和ASR等任务中的性能。
核心思路:论文的核心思路是利用跨模态对齐的序列转录器,将文本和语音映射到一个共享的多模态空间。通过对比学习,模型学习如何在帧级别连接文本和语音,从而获得细粒度的序列表示。这种表示强调文本的语义内容,同时弱化语音的副语言信息。
技术框架:VQ-CTAP的整体框架包括以下几个主要模块:1) 跨模态对齐的序列转录器:用于将文本和语音映射到联合多模态空间。2) 向量量化模块:用于对连续的语音特征进行离散化,实现高压缩率的语音编码。3) 对比学习模块:通过对比学习,模型学习如何在帧级别连接文本和语音。4) 序列感知的语义连接器:用于连接多个预训练模块,实现即插即用的TTS功能。
关键创新:VQ-CTAP的关键创新在于:1) 提出了跨模态对齐的序列转录器,实现了文本和语音在帧级别的对齐。2) 引入了向量量化模块,实现了高压缩率的语音编码。3) 设计了步进优化策略和语义迁移式的副语言一致性损失,提高了模型的泛化能力和对副语言信息的捕捉能力。
关键设计:VQ-CTAP的关键设计包括:1) 使用对比学习损失来鼓励文本和语音在联合空间中的对齐。2) 设计了步进优化策略,逐步注入和调整各种损失分量的影响,以确保模型有效收敛。3) 提出了语义迁移式的副语言一致性损失,以增强表示能力,允许模型更好地泛化到未见过的数据并捕获副语言信息的细微差别。4) 采用25Hz的帧率进行语音编码,实现了960倍的采样率降低。
🖼️ 关键图片
📊 实验亮点
VQ-CTAP无需微调即可直接应用于VC和ASR任务,展示了良好的泛化能力。该方法实现了高压缩语音编码,从24kHz输入波形以25Hz的速率进行编码,采样率降低了960倍。此外,通过语义迁移式的副语言一致性损失,模型能够更好地捕捉副语言信息的细微差别,提升了语音合成的表现力。
🎯 应用场景
VQ-CTAP在语音处理领域具有广泛的应用前景,包括文本到语音合成(TTS)、语音转换(VC)和自动语音识别(ASR)。该方法能够提升语音合成的自然度和表现力,改善语音转换的音色和情感控制,并提高语音识别的准确率和鲁棒性。此外,VQ-CTAP的高压缩语音编码能力使其在低带宽通信和存储等场景中具有实际价值。
📄 摘要(原文)
Deep learning has brought significant improvements to the field of cross-modal representation learning. For tasks such as text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), a cross-modal fine-grained (frame-level) sequence representation is desired, emphasizing the semantic content of the text modality while de-emphasizing the paralinguistic information of the speech modality. We propose a method called "Vector Quantized Contrastive Token-Acoustic Pre-training (VQ-CTAP)", which uses the cross-modal aligned sequence transcoder to bring text and speech into a joint multimodal space, learning how to connect text and speech at the frame level. The proposed VQ-CTAP is a paradigm for cross-modal sequence representation learning, offering a promising solution for fine-grained generation and recognition tasks in speech processing. The VQ-CTAP can be directly applied to VC and ASR tasks without fine-tuning or additional structures. We propose a sequence-aware semantic connector, which connects multiple frozen pre-trained modules for the TTS task, exhibiting a plug-and-play capability. We design a stepping optimization strategy to ensure effective model convergence by gradually injecting and adjusting the influence of various loss components. Furthermore, we propose a semantic-transfer-wise paralinguistic consistency loss to enhance representational capabilities, allowing the model to better generalize to unseen data and capture the nuances of paralinguistic information. In addition, VQ-CTAP achieves high-compression speech coding at a rate of 25Hz from 24kHz input waveforms, which is a 960-fold reduction in the sampling rate. The audio demo is available at https://qiangchunyu.github.io/VQCTAP/