MemeCMD: An Automatically Generated Chinese Multi-turn Dialogue Dataset with Contextually Retrieved Memes
作者: Yuheng Wang, Xianhe Tang, Pufeng Huang
分类: cs.CL, cs.AI
发布日期: 2025-07-01
💡 一句话要点
MemeCMD:提出一个自动生成的、基于上下文检索Meme的中文多轮对话数据集。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态对话 Meme检索 自动数据生成 中文数据集 上下文理解
📋 核心要点
- 现有对话数据集缺乏多模态交互,限制了表达能力和上下文细微差别。
- 提出MemeCMD,结合MLLM标注的Meme库和双智能体自动生成的对话,实现上下文相关的Meme使用。
- 实验证明该方法能有效生成上下文适当且多样化的Meme对话,为多模态对话AI提供资源。
📝 摘要(中文)
本文介绍了一个名为MemeCMD的自动生成的中文多轮对话数据集,该数据集包含基于上下文检索的Meme。现有对话数据集主要局限于手动标注或纯文本对话,缺乏多模态交互所提供的表现力和上下文细微差别。为了解决这些挑战,MemeCMD结合了一个大规模的、由MLLM标注的Meme库以及由双智能体在不同场景下自动生成的对话。我们引入了一个检索框架和自适应阈值,以确保上下文相关、自然间隔的Meme使用。实验表明,我们的方法在生成上下文适当且多样化的、包含Meme的对话方面是有效的,为推进多模态对话AI提供了一个可扩展且保护隐私的资源。
🔬 方法详解
问题定义:现有对话数据集主要集中在纯文本或人工标注的对话上,缺乏利用Meme等多模态信息来增强对话的表达能力和上下文理解。这限制了对话系统的真实感和趣味性,难以模拟真实社交互动中Meme的广泛使用。
核心思路:核心在于构建一个自动化的流程,能够根据对话上下文检索并插入合适的Meme。通过双智能体模拟对话,并利用大型语言模型(MLLM)标注的Meme库,确保Meme的选择与对话内容相关,并且使用频率自然。
技术框架:MemeCMD的生成框架包含以下几个主要模块:1) 双智能体对话生成器:模拟对话场景,生成多轮对话文本。2) MLLM标注的Meme库:包含大量Meme及其对应的语义信息,用于Meme检索。3) 上下文检索框架:根据对话上下文,从Meme库中检索相关的Meme。4) 自适应阈值:控制Meme插入的频率,避免过度使用。整体流程是,双智能体生成对话,然后上下文检索框架根据对话内容从Meme库中检索合适的Meme,并通过自适应阈值决定是否插入到对话中。
关键创新:关键创新在于自动生成包含上下文相关Meme的对话数据集。与手动标注或纯文本数据集相比,MemeCMD能够提供更丰富的多模态信息,更贴近真实社交场景。此外,自适应阈值的使用能够控制Meme的使用频率,避免过度或不自然的插入。
关键设计:检索框架使用余弦相似度来衡量对话上下文和Meme语义信息之间的相关性。自适应阈值根据对话的长度和上下文变化动态调整,以控制Meme插入的概率。具体而言,阈值会随着对话轮数的增加而降低,鼓励在对话后期更多地使用Meme。损失函数主要用于训练双智能体对话生成器,目标是生成流畅、自然的对话。
🖼️ 关键图片
📊 实验亮点
MemeCMD数据集的生成方法能够有效地生成上下文相关的Meme对话。实验结果表明,该方法能够生成多样化的Meme使用模式,并且能够控制Meme的使用频率,避免过度使用。该数据集为多模态对话AI的研究提供了一个有价值的资源。
🎯 应用场景
该研究成果可应用于多模态对话系统、社交机器人、情感计算等领域。MemeCMD数据集能够帮助训练更具表达力和趣味性的对话模型,提升用户交互体验。未来,可以进一步探索如何利用Meme进行情感识别、意图理解和个性化推荐。
📄 摘要(原文)
Memes are widely used in online social interactions, providing vivid, intuitive, and often humorous means to express intentions and emotions. Existing dialogue datasets are predominantly limited to either manually annotated or pure-text conversations, lacking the expressiveness and contextual nuance that multimodal interactions provide.To address these challenges, we introduce MemeCMD, an automatically generated Chinese Multi-turn Dialogue dataset with contextually retrieved memes. Our dataset combines a large-scale, MLLM-annotated meme library with dialogues auto-generated by dual agents across diverse scenarios. We introduce a retrieval framework and adaptive threshold to ensure contextually relevant, naturally spaced meme usage. Experiments demonstrate the effectiveness of our approach in generating contextually appropriate and diverse meme-incorporated dialogues, offering a scalable and privacy-preserving resource for advancing multimodal conversational AI.