DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset

作者: Alkis Koudounas, Moreno La Quatra, Elena Baralis

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-05-26

备注: Currently under review. See the official website: https://salt-research.github.io/DeepDialogue

💡 一句话要点

DeepDialogue：一个多轮、情感丰富的口语对话数据集，促进类人对话系统研究。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 情感识别 语音合成 多模态学习 自然语言处理

📋 核心要点

现有对话数据集在情感范围、领域多样性和轮数深度上存在局限性，阻碍了类人对话系统的发展。
DeepDialogue通过配对不同语言模型生成大量对话，并结合人工标注和LLM过滤，构建高质量多模态数据集。
实验表明，较小模型难以维持长对话一致性，具体领域对话更有效，跨模型交互优于同模型交互。

📝 摘要（中文）

会话AI的最新进展在单轮回复中表现出令人印象深刻的能力，但即使对于最复杂的语言模型来说，多轮对话仍然具有挑战性。当前的对话数据集在情感范围、领域多样性、轮数深度方面受到限制，并且主要为纯文本，这阻碍了跨模态开发更像人类的会话系统。为了解决这些限制，我们提出了DeepDialogue，这是一个大规模多模态数据集，包含40,150个高质量的多轮对话，跨越41个领域，并包含20种不同的情感以及连贯的情感进展。我们的方法配对了9种不同的语言模型（4B-72B参数）来生成65,600个初始对话，然后通过人工标注和基于LLM的质量过滤相结合的方式对这些对话进行评估。结果数据集揭示了基本见解：较小的模型无法维持超过6个对话轮次的一致性；具体的领域（例如，“汽车”，“旅行”）比抽象的领域（例如，“哲学”）产生更有意义的对话；跨模型交互比同模型对话产生更连贯的对话。DeepDialogue的一个关键贡献是其语音组件，我们为所有40,150个对话合成了情感一致的声音，创建了第一个大规模开源多模态对话数据集，该数据集忠实地保留了多轮对话中的情感上下文。

🔬 方法详解

问题定义：现有对话数据集的情感范围有限，领域覆盖不足，且多为文本数据，难以支持开发具有丰富情感表达和跨领域知识的多轮对话系统。现有方法难以生成情感连贯且轮数较深的对话。

核心思路：利用大规模语言模型生成初始对话，并通过人工标注和LLM辅助过滤，筛选出高质量、情感丰富的多轮对话。通过语音合成技术，为对话添加情感一致的语音，构建多模态数据集。

技术框架：DeepDialogue的构建流程主要包括以下几个阶段：1) 使用9个不同规模的语言模型（4B-72B参数）生成65,600个初始对话；2) 通过人工标注和基于LLM的质量过滤，筛选出40,150个高质量对话；3) 使用语音合成技术，为每个对话生成情感一致的语音。

关键创新：DeepDialogue的关键创新在于：1) 构建了一个大规模、多模态、情感丰富的多轮对话数据集；2) 采用了一种结合语言模型生成、人工标注和LLM过滤的数据集构建方法；3) 通过语音合成技术，实现了情感一致的语音生成。

关键设计：在数据生成阶段，论文使用了9个不同规模的语言模型，以探索模型规模对对话质量的影响。在数据过滤阶段，论文结合了人工标注和基于LLM的自动评估，以提高数据质量。在语音合成阶段，论文使用了情感控制的语音合成技术，以保证语音与对话情感的一致性。具体的参数设置和损失函数等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，较小的语言模型难以维持超过6个对话轮次的一致性。具体领域（如“汽车”、“旅行”）的对话比抽象领域（如“哲学”）的对话更有意义。跨模型交互生成的对话比同模型生成的对话更连贯。这些发现为多轮对话系统的设计提供了有价值的指导。

🎯 应用场景

DeepDialogue数据集可用于训练和评估多轮对话系统，特别是那些需要理解和生成情感丰富对话的系统。潜在应用包括情感客服机器人、个性化虚拟助手、以及用于心理健康支持的对话系统。该数据集的发布将促进多模态情感对话领域的研究进展。

📄 摘要（原文）

Recent advances in conversational AI have demonstrated impressive capabilities in single-turn responses, yet multi-turn dialogues remain challenging for even the most sophisticated language models. Current dialogue datasets are limited in their emotional range, domain diversity, turn depth, and are predominantly text-only, hindering progress in developing more human-like conversational systems across modalities. To address these limitations, we present DeepDialogue, a large-scale multimodal dataset containing 40,150 high-quality multi-turn dialogues spanning 41 domains and incorporating 20 distinct emotions with coherent emotional progressions. Our approach pairs 9 different language models (4B-72B parameters) to generate 65,600 initial conversations, which we then evaluate through a combination of human annotation and LLM-based quality filtering. The resulting dataset reveals fundamental insights: smaller models fail to maintain coherence beyond 6 dialogue turns; concrete domains (e.g., "cars," "travel") yield more meaningful conversations than abstract ones (e.g., "philosophy"); and cross-model interactions produce more coherent dialogues than same-model conversations. A key contribution of DeepDialogue is its speech component, where we synthesize emotion-consistent voices for all 40,150 dialogues, creating the first large-scale open-source multimodal dialogue dataset that faithfully preserves emotional context across multi-turn conversations.

DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理