DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset

📄 arXiv: 2505.19978v1 📥 PDF

作者: Alkis Koudounas, Moreno La Quatra, Elena Baralis

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-05-26

备注: Currently under review. See the official website: https://salt-research.github.io/DeepDialogue


💡 一句话要点

DeepDialogue:一个多轮、情感丰富的口语对话数据集,促进类人对话系统研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 情感识别 语音合成 多模态学习 自然语言处理

📋 核心要点

  1. 现有对话数据集在情感范围、领域多样性和轮数深度上存在局限性,阻碍了类人对话系统的发展。
  2. DeepDialogue通过配对不同语言模型生成大量对话,并结合人工标注和LLM过滤,构建高质量多模态数据集。
  3. 实验表明,较小模型难以维持长对话一致性,具体领域对话更有效,跨模型交互优于同模型交互。

📝 摘要(中文)

会话AI的最新进展在单轮回复中表现出令人印象深刻的能力,但即使对于最复杂的语言模型来说,多轮对话仍然具有挑战性。当前的对话数据集在情感范围、领域多样性、轮数深度方面受到限制,并且主要为纯文本,这阻碍了跨模态开发更像人类的会话系统。为了解决这些限制,我们提出了DeepDialogue,这是一个大规模多模态数据集,包含40,150个高质量的多轮对话,跨越41个领域,并包含20种不同的情感以及连贯的情感进展。我们的方法配对了9种不同的语言模型(4B-72B参数)来生成65,600个初始对话,然后通过人工标注和基于LLM的质量过滤相结合的方式对这些对话进行评估。结果数据集揭示了基本见解:较小的模型无法维持超过6个对话轮次的一致性;具体的领域(例如,“汽车”,“旅行”)比抽象的领域(例如,“哲学”)产生更有意义的对话;跨模型交互比同模型对话产生更连贯的对话。DeepDialogue的一个关键贡献是其语音组件,我们为所有40,150个对话合成了情感一致的声音,创建了第一个大规模开源多模态对话数据集,该数据集忠实地保留了多轮对话中的情感上下文。

🔬 方法详解

问题定义:现有对话数据集的情感范围有限,领域覆盖不足,且多为文本数据,难以支持开发具有丰富情感表达和跨领域知识的多轮对话系统。现有方法难以生成情感连贯且轮数较深的对话。

核心思路:利用大规模语言模型生成初始对话,并通过人工标注和LLM辅助过滤,筛选出高质量、情感丰富的多轮对话。通过语音合成技术,为对话添加情感一致的语音,构建多模态数据集。

技术框架:DeepDialogue的构建流程主要包括以下几个阶段:1) 使用9个不同规模的语言模型(4B-72B参数)生成65,600个初始对话;2) 通过人工标注和基于LLM的质量过滤,筛选出40,150个高质量对话;3) 使用语音合成技术,为每个对话生成情感一致的语音。

关键创新:DeepDialogue的关键创新在于:1) 构建了一个大规模、多模态、情感丰富的多轮对话数据集;2) 采用了一种结合语言模型生成、人工标注和LLM过滤的数据集构建方法;3) 通过语音合成技术,实现了情感一致的语音生成。

关键设计:在数据生成阶段,论文使用了9个不同规模的语言模型,以探索模型规模对对话质量的影响。在数据过滤阶段,论文结合了人工标注和基于LLM的自动评估,以提高数据质量。在语音合成阶段,论文使用了情感控制的语音合成技术,以保证语音与对话情感的一致性。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,较小的语言模型难以维持超过6个对话轮次的一致性。具体领域(如“汽车”、“旅行”)的对话比抽象领域(如“哲学”)的对话更有意义。跨模型交互生成的对话比同模型生成的对话更连贯。这些发现为多轮对话系统的设计提供了有价值的指导。

🎯 应用场景

DeepDialogue数据集可用于训练和评估多轮对话系统,特别是那些需要理解和生成情感丰富对话的系统。潜在应用包括情感客服机器人、个性化虚拟助手、以及用于心理健康支持的对话系统。该数据集的发布将促进多模态情感对话领域的研究进展。

📄 摘要(原文)

Recent advances in conversational AI have demonstrated impressive capabilities in single-turn responses, yet multi-turn dialogues remain challenging for even the most sophisticated language models. Current dialogue datasets are limited in their emotional range, domain diversity, turn depth, and are predominantly text-only, hindering progress in developing more human-like conversational systems across modalities. To address these limitations, we present DeepDialogue, a large-scale multimodal dataset containing 40,150 high-quality multi-turn dialogues spanning 41 domains and incorporating 20 distinct emotions with coherent emotional progressions. Our approach pairs 9 different language models (4B-72B parameters) to generate 65,600 initial conversations, which we then evaluate through a combination of human annotation and LLM-based quality filtering. The resulting dataset reveals fundamental insights: smaller models fail to maintain coherence beyond 6 dialogue turns; concrete domains (e.g., "cars," "travel") yield more meaningful conversations than abstract ones (e.g., "philosophy"); and cross-model interactions produce more coherent dialogues than same-model conversations. A key contribution of DeepDialogue is its speech component, where we synthesize emotion-consistent voices for all 40,150 dialogues, creating the first large-scale open-source multimodal dialogue dataset that faithfully preserves emotional context across multi-turn conversations.