Multimodal Coreference Resolution for Chinese Social Media Dialogues: Dataset and Benchmark Approach

📄 arXiv: 2504.14321v2 📥 PDF

作者: Xingyu Li, Chen Gong, Guohong Fu

分类: cs.CL

发布日期: 2025-04-19 (更新: 2025-05-19)


💡 一句话要点

提出TikTalkCoref数据集,并构建基准方法,解决中文社交媒体对话中的多模态共指消解问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态共指消解 中文社交媒体 对话系统 数据集构建 基准方法

📋 核心要点

  1. 现有方法缺乏真实场景中文社交媒体对话的多模态共指消解数据集,限制了相关研究的进展。
  2. 论文构建了TikTalkCoref数据集,并提出了一种针对名人领域的多模态共指消解基准方法。
  3. 实验结果表明,该基准方法在TikTalkCoref数据集上取得了可靠的结果,为后续研究提供了参考。

📝 摘要(中文)

多模态共指消解(MCR)旨在识别跨不同模态(如文本和视觉)指向同一实体的提及,这对于理解多模态内容至关重要。在多模态内容和社交媒体快速增长的时代,MCR对于解释用户交互以及桥接文本-视觉引用以改善沟通和个性化至关重要。然而,由于缺乏足够的数据资源,针对真实对话的MCR研究仍未被探索。为了解决这一差距,我们推出了TikTalkCoref,这是第一个针对真实场景中社交媒体的中文多模态共指数据集,来源于流行的抖音短视频平台。该数据集将短视频与用户评论中相应的文本对话配对,并包括手动标注的文本中人物提及和相应视频帧中共指人物头部区域的共指簇。我们还提出了一种有效的MCR基准方法,专注于名人领域,并在我们的数据集上进行了广泛的实验,为这个新构建的数据集提供了可靠的基准结果。我们将发布TikTalkCoref数据集,以促进未来对真实社交媒体对话的MCR研究。

🔬 方法详解

问题定义:论文旨在解决中文社交媒体对话场景下的多模态共指消解问题。现有方法缺乏足够的数据资源,尤其是在真实场景对话中,难以进行有效的模型训练和评估。因此,构建高质量的数据集并提出有效的基准方法是当前研究的痛点。

核心思路:论文的核心思路是构建一个包含文本和视频模态信息的共指消解数据集,并设计一个基准模型来学习文本和视觉特征之间的关联,从而实现准确的多模态共指消解。通过在真实社交媒体场景下进行数据采集和标注,可以更好地反映实际应用的需求。

技术框架:整体框架包括数据收集与标注、特征提取和共指消解三个主要阶段。首先,从抖音短视频平台收集视频和用户评论数据,并进行人工标注,构建TikTalkCoref数据集。然后,分别提取文本和视频的特征表示,例如使用预训练语言模型提取文本特征,使用目标检测模型提取人脸特征。最后,利用共指消解模型,将文本提及和视频中的人脸进行匹配,形成共指簇。

关键创新:论文的关键创新在于构建了首个中文社交媒体对话场景下的多模态共指消解数据集TikTalkCoref。该数据集包含了真实的用户评论和短视频,更贴近实际应用场景。此外,论文还提出了一种针对名人领域的多模态共指消解基准方法,为后续研究提供了参考。

关键设计:论文中数据集的构建考虑了数据多样性和标注质量,采用了多轮标注和专家审核的方式。基准方法可能采用了预训练模型进行特征提取,并设计了特定的损失函数来优化文本和视觉特征的对齐。具体的网络结构和参数设置在论文中应该有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了首个中文社交媒体对话场景下的多模态共指消解数据集TikTalkCoref,并提出了一个有效的基准方法。实验结果表明,该基准方法在TikTalkCoref数据集上取得了可靠的性能,为后续研究提供了有价值的参考。具体的性能数据和对比基线需要在论文中查看。

🎯 应用场景

该研究成果可应用于智能客服、社交媒体内容理解、个性化推荐等领域。通过识别用户在文本和视频中提及的同一实体,可以更准确地理解用户意图,从而提供更智能、更个性化的服务。例如,在智能客服中,可以根据用户在评论中提及的人物和视频中出现的人物,更好地理解用户的问题,并给出更准确的答案。

📄 摘要(原文)

Multimodal coreference resolution (MCR) aims to identify mentions referring to the same entity across different modalities, such as text and visuals, and is essential for understanding multimodal content. In the era of rapidly growing mutimodal content and social media, MCR is particularly crucial for interpreting user interactions and bridging text-visual references to improve communication and personalization. However, MCR research for real-world dialogues remains unexplored due to the lack of sufficient data resources. To address this gap, we introduce TikTalkCoref, the first Chinese multimodal coreference dataset for social media in real-world scenarios, derived from the popular Douyin short-video platform. This dataset pairs short videos with corresponding textual dialogues from user comments and includes manually annotated coreference clusters for both person mentions in the text and the coreferential person head regions in the corresponding video frames. We also present an effective benchmark approach for MCR, focusing on the celebrity domain, and conduct extensive experiments on our dataset, providing reliable benchmark results for this newly constructed dataset. We will release the TikTalkCoref dataset to facilitate future research on MCR for real-world social media dialogues.