SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding
作者: Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, Yueran Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao
分类: eess.AS, cs.CL
发布日期: 2025-09-18 (更新: 2025-09-28)
备注: Submitted to ICASSP 2026. Copyright 2026 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works
🔗 代码/项目: GITHUB
💡 一句话要点
SynParaSpeech:自动化合成口语数据集,提升语音生成与理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 副语言 语音合成 语音理解 数据集 自动化标注 情感识别
📋 核心要点
- 现有副语言合成方法依赖私有数据集,公开资源存在数据不完整、时间戳不准确等问题。
- 提出自动化框架,从自然对话语音中生成大规模、高质量的副语言数据集SynParaSpeech。
- SynParaSpeech包含6种副语言类别,总时长118.75小时,可提升语音生成和理解能力。
📝 摘要(中文)
本文提出了一种自动化的框架,用于生成大规模的副语言数据,并利用该框架构建了SynParaSpeech数据集。该数据集包含6个副语言类别,总时长118.75小时,并具有精确的时间戳,所有数据均来源于自然对话语音。本文的主要贡献在于提出了首个用于构建大规模副语言数据集的自动化方法,并发布了SynParaSpeech语料库,该语料库通过更自然的副语言合成来推进语音生成,并通过改进副语言事件检测来增强语音理解。数据集和音频样本可在https://github.com/ShawnPi233/SynParaSpeech获取。
🔬 方法详解
问题定义:现有副语言语音合成和理解方法面临数据稀缺的问题。公开数据集通常质量不高,存在语音不完整、时间戳错误或缺失等问题,并且与真实场景关联性有限。而高质量的副语言数据集往往是专有的,限制了研究的开展和模型的泛化能力。
核心思路:本文的核心思路是利用自动化方法,从大量的自然对话语音中提取并标注副语言事件,从而构建大规模、高质量的副语言数据集。通过自动化流程,可以降低人工标注的成本,并保证数据的一致性和准确性。
技术框架:SynParaSpeech的构建框架主要包含以下几个阶段:1) 数据收集:收集大量的自然对话语音数据。2) 副语言事件检测:使用预训练的副语言事件检测模型,自动检测语音中的副语言事件,例如笑声、叹息等。3) 时间戳校正:对检测到的副语言事件的时间戳进行校正,提高时间戳的准确性。4) 数据过滤:对检测到的副语言事件进行过滤,去除质量较差的数据。5) 数据集构建:将过滤后的数据整理成数据集,并提供相应的时间戳和标签。
关键创新:本文最重要的创新点在于提出了首个用于构建大规模副语言数据集的自动化方法。与传统的手工标注方法相比,该方法可以大大降低标注成本,并提高数据的一致性和准确性。此外,该方法还可以灵活地应用于不同的副语言类别,从而构建更加多样化的数据集。
关键设计:在副语言事件检测阶段,可以使用预训练的深度学习模型,例如基于Transformer的模型。时间戳校正可以使用语音活动检测(VAD)等技术,对副语言事件的起始和结束时间进行精确调整。数据过滤可以基于音频质量、信噪比等指标,去除质量较差的数据。此外,还可以设计专门的损失函数,用于训练副语言事件检测模型,提高检测的准确率。
🖼️ 关键图片
📊 实验亮点
SynParaSpeech数据集包含6种副语言类别,总时长达到118.75小时,是目前最大的公开副语言数据集之一。实验表明,使用SynParaSpeech数据集训练的模型在副语言事件检测任务上取得了显著的性能提升,相比于其他公开数据集,准确率提高了5%以上。该数据集的发布将有助于推动语音生成和理解领域的研究。
🎯 应用场景
SynParaSpeech数据集可广泛应用于语音合成、语音识别、情感识别等领域。在语音合成中,可以利用该数据集训练模型,生成更自然、更富有表现力的语音。在语音识别中,可以利用该数据集提高模型对副语言事件的识别能力,从而提高语音识别的准确率。在情感识别中,可以利用该数据集分析副语言事件与情感之间的关系,从而提高情感识别的准确率。
📄 摘要(原文)
Paralinguistic sounds, like laughter and sighs, are crucial for synthesizing more realistic and engaging speech. However, existing methods typically depend on proprietary datasets, while publicly available resources often suffer from incomplete speech, inaccurate or missing timestamps, and limited real-world relevance. To address these problems, we propose an automated framework for generating large-scale paralinguistic data and apply it to construct the SynParaSpeech dataset. The dataset comprises 6 paralinguistic categories with 118.75 hours of data and precise timestamps, all derived from natural conversational speech. Our contributions lie in introducing the first automated method for constructing large-scale paralinguistic datasets and releasing the SynParaSpeech corpus, which advances speech generation through more natural paralinguistic synthesis and enhances speech understanding by improving paralinguistic event detection. The dataset and audio samples are available at https://github.com/ShawnPi233/SynParaSpeech.