SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
作者: Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu
分类: cs.CL, cs.SD, eess.AS
发布日期: 2024-06-19 (更新: 2025-01-16)
备注: Accepted to NeurIPS 2024
🔗 代码/项目: GITHUB
💡 一句话要点
SD-Eval:一个用于评估语音对话理解中超词汇信息的基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音对话理解 副语言信息 环境信息 基准数据集 LLM评估指标
📋 核心要点
- 现有对话LLM在处理语音输入时,虽然能识别和分析语音,但往往难以生成合适的响应,缺乏对语音中超词汇信息的有效利用。
- SD-Eval数据集旨在提供一个多维度评估语音对话理解和生成能力的基准,重点关注副语言和环境信息,填补了相关数据集和评估标准的空白。
- 实验结果表明,利用副语言和环境信息的模型性能更优,且基于LLM的评估指标与人类评估结果的相关性更高,验证了数据集的有效性。
📝 摘要(中文)
本文提出了SD-Eval,一个用于多维度评估语音对话理解和生成能力的基准数据集。该数据集侧重于副语言信息和环境信息,包含7303条话语,总计8.76小时的语音数据。数据来源于八个公共数据集,代表了四个维度:情感、口音、年龄和背景声音。为了评估SD-Eval基准数据集,作者实现了三个不同的模型,并构建了一个包含1052.72小时语音数据和724.4k条话语的训练集,训练过程与SD-Eval类似。此外,还使用客观评估方法(如BLEU和ROUGE)、主观评估和基于LLM的指标对生成的响应进行了全面评估。实验结果表明,以副语言和环境信息为条件的模型在客观和主观指标上均优于其他模型。此外,实验表明,与传统指标相比,基于LLM的指标与人类评估的相关性更高。SD-Eval已开源。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在处理语音对话时,虽然具备一定的语音识别和分析能力,但往往忽略了语音中蕴含的丰富信息,如情感、口音、年龄和环境声音等副语言信息,导致生成的回复不够自然和贴切。缺乏一个专门用于评估模型对这些超词汇信息理解能力的基准数据集,阻碍了相关研究的进展。
核心思路:本文的核心思路是构建一个包含丰富副语言和环境信息的语音对话数据集,并提供相应的评估指标,从而促进对语音对话理解模型进行更全面和细致的评估。通过提供高质量的数据和评估标准,鼓励研究者开发能够更好理解和利用语音中超词汇信息的模型。
技术框架:SD-Eval数据集的构建流程主要包括以下几个步骤:1) 数据收集:从八个公开数据集中收集语音数据,这些数据集涵盖了情感、口音、年龄和背景声音等四个方面。2) 数据标注:对收集到的语音数据进行标注,标注内容包括语音文本、情感、口音、年龄和背景声音等信息。3) 数据划分:将标注好的数据划分为训练集、验证集和测试集。4) 模型评估:使用客观评估方法(如BLEU和ROUGE)、主观评估和基于LLM的指标对模型生成的响应进行评估。
关键创新:SD-Eval数据集的关键创新在于其专注于语音对话理解中超词汇信息的评估。与以往的语音对话数据集相比,SD-Eval更加关注情感、口音、年龄和背景声音等副语言信息,这使得它能够更全面地评估模型对语音的理解能力。此外,SD-Eval还提供了基于LLM的评估指标,这些指标与人类评估的相关性更高,能够更准确地反映模型的性能。
关键设计:SD-Eval数据集的关键设计包括:1) 数据来源的多样性:从八个不同的数据集中收集数据,保证了数据集的多样性和泛化能力。2) 标注信息的全面性:标注信息涵盖了情感、口音、年龄和背景声音等多个方面,为模型提供了更丰富的训练信息。3) 评估指标的合理性:采用了客观评估方法、主观评估和基于LLM的指标,保证了评估结果的可靠性和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,以副语言和环境信息为条件的模型在客观指标(BLEU、ROUGE)和主观指标上均优于基线模型,证明了利用超词汇信息可以显著提升语音对话系统的性能。更重要的是,基于LLM的评估指标与人类评估的相关性更高,表明其能更准确地反映模型的真实性能。
🎯 应用场景
SD-Eval数据集可应用于开发更自然、更具同理心的语音对话系统。例如,在智能客服中,系统可以根据用户的语气和情感状态提供个性化的服务。在教育领域,系统可以根据学生的年龄和口音调整教学内容和方式。此外,该数据集还可以促进语音情感识别、口音识别等相关技术的发展。
📄 摘要(原文)
Speech encompasses a wealth of information, including but not limited to content, paralinguistic, and environmental information. This comprehensive nature of speech significantly impacts communication and is crucial for human-computer interaction. Chat-Oriented Large Language Models (LLMs), known for their general-purpose assistance capabilities, have evolved to handle multi-modal inputs, including speech. Although these models can be adept at recognizing and analyzing speech, they often fall short of generating appropriate responses. We argue that this is due to the lack of principles on task definition and model development, which requires open-source datasets and metrics suitable for model evaluation. To bridge the gap, we present SD-Eval, a benchmark dataset aimed at multidimensional evaluation of spoken dialogue understanding and generation. SD-Eval focuses on paralinguistic and environmental information and includes 7,303 utterances, amounting to 8.76 hours of speech data. The data is aggregated from eight public datasets, representing four perspectives: emotion, accent, age, and background sound. To assess the SD-Eval benchmark dataset, we implement three different models and construct a training set following a process similar to that of SD-Eval. The training set contains 1,052.72 hours of speech data and 724.4k utterances. We also conduct a comprehensive evaluation using objective evaluation methods (e.g. BLEU and ROUGE), subjective evaluations and LLM-based metrics for the generated responses. Models conditioned with paralinguistic and environmental information outperform their counterparts in both objective and subjective measures. Moreover, experiments demonstrate that LLM-based metrics show a higher correlation with human evaluation compared to traditional metrics. We open-source SD-Eval at https://github.com/amphionspace/SD-Eval.