RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis

📄 arXiv: 2508.10015v1 📥 PDF

作者: Enzhi Wang, Qicheng Li, Shiwan Zhao, Aobo Kong, Jiaming Zhou, Xi Yang, Yequan Wang, Yonghua Lin, Yong Qin

分类: cs.CL

发布日期: 2025-08-06

备注: 9 pages


💡 一句话要点

提出RealTalk-CN以解决中文对话系统缺乏真实语音数据的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态对话 语音识别 中文数据集 任务导向对话 自然语言处理 语音流畅性 跨模态交互

📋 核心要点

  1. 现有的任务导向对话系统数据集主要基于文本,缺乏真实语音信号,无法有效评估语音模型的鲁棒性。
  2. 提出RealTalk-CN数据集,包含5400个对话和语音-文本标注,捕捉多样的对话场景和自发语音流畅性。
  3. 通过大量实验验证RealTalk-CN的有效性,建立了中文语音模型研究的坚实基础。

📝 摘要(中文)

近年来,大型语言模型在多模态处理方面取得了显著进展,尤其是在基于语音的任务导向对话系统中。然而,现有的对话数据集主要基于文本,缺乏真实语音信号,无法有效评估语音模型的鲁棒性。此外,现有的语音对话数据集主要为英语,缺乏语音流畅性和说话者变异等关键特征。为了解决这些问题,我们提出了RealTalk-CN,这是第一个中文多轮、多领域的语音-文本双模态对话数据集,包含5400个对话(6万条发言,150小时),并配有语音-文本标注。RealTalk-CN捕捉了多样的对话场景,并注释了自发语音中的流畅性,确保全面覆盖真实世界的对话复杂性。此外,我们提出了一种新颖的跨模态聊天任务,真实模拟用户交互,允许在语音和文本模态之间动态切换。我们的评估涵盖了对语音流畅性的鲁棒性、对说话者特征的敏感性和跨领域性能。大量实验验证了RealTalk-CN的有效性,为中文语音模型研究奠定了坚实基础。

🔬 方法详解

问题定义:本论文旨在解决现有任务导向对话系统缺乏真实语音数据的问题,现有数据集主要为文本,无法有效评估语音模型的性能和鲁棒性。

核心思路:我们提出RealTalk-CN数据集,专注于中文多轮对话,涵盖多领域和自发语音流畅性,以真实场景为基础,增强对话系统的实用性和准确性。

技术框架:数据集包含5400个对话,60K条发言,150小时的语音数据,配有语音-文本标注,支持跨模态的动态切换。评估包括对语音流畅性的鲁棒性、说话者特征的敏感性和跨领域性能。

关键创新:RealTalk-CN是首个中文多模态对话数据集,注重自发语音流畅性和说话者变异,填补了现有数据集的空白,推动了中文语音模型的研究。

关键设计:数据集中包含多样化的对话场景,注释了语音流畅性,设计了跨模态聊天任务,允许用户在语音和文本之间动态切换,增强了真实交互的模拟。

📊 实验亮点

实验结果表明,RealTalk-CN在对语音流畅性的鲁棒性和说话者特征的敏感性方面表现优异,显著提升了跨领域性能。与现有基线相比,模型在多项任务中表现出更高的准确率和更好的用户体验。

🎯 应用场景

RealTalk-CN数据集的潜在应用领域包括智能客服、语音助手和教育领域等,能够提升语音交互系统的自然性和准确性。未来,该数据集将为中文语音模型的研究和开发提供重要支持,推动多模态交互技术的发展。

📄 摘要(原文)

In recent years, large language models (LLMs) have achieved remarkable advancements in multimodal processing, including end-to-end speech-based language models that enable natural interactions and perform specific tasks in task-oriented dialogue (TOD) systems. However, existing TOD datasets are predominantly text-based, lacking real speech signals that are essential for evaluating the robustness of speech-based LLMs. Moreover, existing speech TOD datasets are primarily English and lack critical aspects such as speech disfluencies and speaker variations. To address these gaps, we introduce RealTalk-CN, the first Chinese multi-turn, multi-domain speech-text dual-modal TOD dataset, comprising 5.4k dialogues (60K utterances, 150 hours) with paired speech-text annotations. RealTalk-CN captures diverse dialogue scenarios with annotated spontaneous speech disfluencies, ensuring comprehensive coverage of real-world complexities in speech dialogue. In addition, we propose a novel cross-modal chat task that authentically simulates real-world user interactions, allowing dynamic switching between speech and text modalities. Our evaluation covers robustness to speech disfluencies, sensitivity to speaker characteristics, and cross-domain performance. Extensive experiments validate the effectiveness of RealTalk-CN, establishing a strong foundation for Chinese speech-based LLMs research.